लॉजिस्टिक रिग्रेशन कब उपयुक्त है?


12

मैं वर्तमान में खुद को सिखा रहा हूं कि कैसे वर्गीकरण करना है, और विशेष रूप से मैं तीन तरीकों को देख रहा हूं: वेक्टर मशीनों, तंत्रिका नेटवर्क और लॉजिस्टिक प्रतिगमन का समर्थन करें। मैं यह समझने की कोशिश कर रहा हूं कि लॉजिस्टिक रिग्रेशन कभी भी अन्य दो की तुलना में बेहतर प्रदर्शन करेगा।

लॉजिस्टिक रिग्रेशन की मेरी समझ से, विचार पूरे डेटा के लिए लॉजिस्टिक फ़ंक्शन को फिट करने का है। इसलिए यदि मेरा डेटा द्विआधारी है, तो लेबल 0 के साथ मेरे सभी डेटा को मान 0 (या इसके करीब) पर मैप किया जाना चाहिए, और मूल्य 1 के साथ मेरे सभी डेटा को 1 मान (या इसके करीब) पर मैप किया जाना चाहिए। अब, क्योंकि लॉजिस्टिक फ़ंक्शन निरंतर और सुचारू है, इस प्रतिगमन को निष्पादित करने के लिए वक्र को फिट करने के लिए मेरे सभी डेटा की आवश्यकता होती है; निर्णय सीमा के पास डेटा बिंदुओं पर कोई अधिक महत्व नहीं है, और सभी डेटा बिंदु अलग-अलग मात्रा में नुकसान में योगदान करते हैं।

हालांकि, समर्थन वेक्टर मशीनों और तंत्रिका नेटवर्क के साथ, निर्णय सीमा के पास केवल वे डेटा बिंदु महत्वपूर्ण हैं; जब तक निर्णय सीमा के एक ही तरफ एक डेटा बिंदु रहता है, तब तक यह उसी नुकसान में योगदान देगा।

इसलिए, लॉजिस्टिक रिग्रेशन कभी भी वेक्टर मशीनों या न्यूरल नेटवर्क्स का समर्थन करता है, यह देखते हुए कि यह "बेकार संसाधनों" को बहुत सारे महत्वहीन (आसानी से वर्गीकृत करने योग्य) डेटा को फिट करने की कोशिश पर है, बजाय निर्णय के चारों ओर केवल कठिन डेटा पर केंद्रित है। सीमा?


5
LR आपको प्रायिकता अनुमान देगा जबकि SVM बाइनरी अनुमान देता है। जब वर्गों के बीच कोई अलग हाइपरप्लेन नहीं होता है तो यह LR को उपयोगी बनाता है। इसके अलावा, आपको एल्गोरिदम की जटिलता और अन्य विशेषताओं जैसे मापदंडों और संवेदनशीलता की संख्या को ध्यान में रखना होगा।
बार

जवाबों:


28

जिन संसाधनों को आप "बर्बाद" मानते हैं, वास्तव में, लॉजिस्टिक प्रतिगमन द्वारा प्रदान की गई जानकारी लाभ हैं। आपने गलत आधार के साथ शुरुआत की। लॉजिस्टिक रिग्रेशन एक क्लासिफायरियर नहीं है। यह एक संभावना / जोखिम अनुमानक है। एसवीएम के विपरीत, यह "करीबी कॉल" की अनुमति देता है और अपेक्षा करता है। यह इष्टतम निर्णय लेने की ओर ले जाएगा, क्योंकि जब भी आप टिप्पणियों को वर्गीकृत करते हैं, तो यह एक उपयोगिता फ़ंक्शन को शामिल करने में भविष्य कहनेवाला संकेत को छल करने की कोशिश नहीं करता है। अधिकतम संभावना अनुमान का उपयोग कर लॉजिस्टिक रिग्रेशन का लक्ष्य प्रोब का इष्टतम अनुमान प्रदान करना है । परिणाम कई मायनों में उपयोग किया जाता है, उदाहरण के लिए लिफ्ट कर्व्स, क्रेडिट रिस्क स्कोरिंग, आदि। नैट सिल्वर की बुक सिग्नल और शोर देखें(Y=1|एक्स) संभाव्य तर्क के पक्ष में तर्क देने के लिए मजबूर करना।

ध्यान दें कि लॉजिस्टिक रिग्रेशन में आश्रित वेरिएबल को आप किसी भी तरह से कोडित किया जा सकता है: 0/1, A / B, yes / no, आदि।Y

लॉजिस्टिक रिग्रेशन की प्राथमिक धारणा यह है कि वास्तव में द्विआधारी है, उदाहरण के लिए यह एक अंतर्निहित ऑर्डिनल या निरंतर प्रतिक्रिया चर से वंचित नहीं था। यह वर्गीकरण के तरीकों की तरह, वास्तव में सभी या कुछ भी नहीं के लिए है।Y

कुछ विश्लेषकों का मानना ​​है कि लॉजिस्टिक रिग्रेशन लॉग ऑड्स स्केल पर पूर्वसूचक प्रभावों की रैखिकता को मानता है। यह केवल तभी सच था जब 1958 में DR कॉक्स ने लॉजिस्टिक मॉडल का आविष्कार किया था, जब प्रतिगमन विभाजन जैसे उपकरणों का उपयोग करके मॉडल का विस्तार करने के लिए कंप्यूटिंग उपलब्ध नहीं था। लॉजिस्टिक रिग्रेशन में एकमात्र वास्तविक कमजोरी यह है कि आपको यह निर्दिष्ट करने की आवश्यकता है कि आप मॉडल में कौन सी बातचीत की अनुमति देना चाहते हैं। अधिकांश डेटासेट के लिए इसे एक शक्ति के रूप में बदल दिया जाता है क्योंकि एडिटिव मुख्य प्रभाव आमतौर पर इंटरैक्शन की तुलना में अधिक मजबूत भविष्यवाणियां होते हैं, और मशीन सीखने के तरीके जो इंटरैक्शन को समान प्राथमिकता देते हैं, अस्थिर हो सकते हैं, व्याख्या करना कठिन हो सकता है, और भविष्यवाणी करने के लिए लॉजिस्टिक रिग्रेशन की तुलना में बड़े नमूना आकारों की आवश्यकता होती है। कुंआ।


6
+1। ईमानदार होने के लिए, मैंने कभी भी एसवीएम को उपयोगी नहीं पाया है। वे सेक्सी हैं, लेकिन वे मेरे अनुभव में प्रशिक्षित और स्कोर करने के लिए धीमी हैं - और आपके पास बहुत सारे विकल्प हैं (कर्नेल सहित)। तंत्रिका नेटवर्क मैंने उपयोगी पाया है, लेकिन बहुत सारे विकल्प और समायोजन भी। लॉजिस्टिक रिग्रेशन सरल है और बॉक्स के बाहर यथोचित-कैलिब्रेटेड परिणाम देता है। वास्तविक दुनिया के उपयोग के लिए अंशांकन महत्वपूर्ण है। बेशक, नकारात्मक पक्ष यह है कि यह रैखिक है, इसलिए क्लस्टर-ईश, गांठदार डेटा के साथ-साथ रैंडम फ़ॉरेस्ट जैसे अन्य तरीकों को फिट नहीं किया जा सकता है।
वेन

1
बहुत बढ़िया जवाब। वैसे, आपको यह जानने में दिलचस्पी हो सकती है कि हाल ही में मशीन-सीखने वाले अपने फैंसी तरीकों को पारंपरिक रूपरेखाओं में ढाले जाने के आस-पास आए हैं, जैसे कि अधिकतम संभावना को दंडित किया गया है - और यह जब यह किया जाता है तो फैंसी तरीकों को बेहतर तरीके से काम करता है। XGBoost पर विचार करें, यकीनन सबसे प्रभावी पेड़ अस्तित्व में एल्गोरिथ्म को बढ़ावा देने वाले कलाकारों की टुकड़ी है। गणित यहाँ है: xgboost.readthedocs.io/en/latest/model.html । यह एक पारंपरिक सांख्यिकीविद् के लिए काफी परिचित होना चाहिए, और आप सामान्य नुकसान कार्यों के साथ कई सामान्य सांख्यिकीय उद्देश्यों के लिए मॉडल फिट कर सकते हैं।
पॉल

5

आप सही हैं, बहुधा लॉजिस्टिक रिग्रेशन एक क्लासिफ़ायर के रूप में खराब होता है (विशेषकर जब अन्य एल्गोरिदम की तुलना में)। हालांकि, इसका मतलब यह नहीं है कि लॉजिस्टिक रिग्रेशन को भुला दिया जाना चाहिए और इसका अध्ययन कभी नहीं किया जाना चाहिए क्योंकि इसके दो बड़े फायदे हैं:

  1. संभावित परिणाम। फ्रैंक हरेल (+1) ने अपने उत्तर में इसे बहुत अच्छी तरह समझाया।

  2. Y=1एक्स1=12एक्स2,एक्सपी


5
और एक क्लासिफायर के रूप में स्पष्ट रूप से खराब प्रदर्शन अनुचित सटीकता स्कोर का उपयोग करने का एक परिणाम है, न कि लॉजिस्टिक प्रतिगमन के लिए अंतर्निहित समस्या।
फ्रैंक हरेल

@FrankHarrell: मैं हाल ही में कुछ प्रयोग कर रहा हूं और मैं कहूंगा कि लॉजिस्टिक रिग्रेशन डेटा को अन्य तरीकों की तुलना में बहुत कम स्वतंत्रता के साथ फिट करता है। रैंडम फ़ॉरेस्ट या GAM के लचीलेपन के लिए आपको इंटरैक्शन जोड़ने और अधिक फ़ीचर इंजीनियरिंग करने की आवश्यकता होती है। (निश्चित रूप से लचीलेपन के कारण तंग करने वाला कगार है जो ओवरफिटिंग की खाई को पार करता है।)
वेन

3
@wayne यह कम स्वतंत्रता, जैसा कि आप इसे कहते हैं, कई मामलों में बहुत सहायक है, क्योंकि यह स्थिरता प्रदान करता है
रैप २३'१६

3
न केवल बातचीत की शर्तों को जोड़ने की तुलना में कम महत्वपूर्ण हैं, क्योंकि additive शब्द लचीलापन जोड़ते हैं, लेकिन आप कई तरीकों से मान्यताओं को आराम कर सकते हैं। मैं अपने मूल उत्तर में इसके बारे में अधिक जोड़ रहा हूँ।
फ्रैंक हरेल

2
@ अंगूर: हां, लचीलापन खतरनाक है, दोनों ओवरफिटिंग के मामले में, लेकिन अन्य तरीकों से भी। यह एक डोमेन / उपयोग का मुद्दा है: क्या आपका डेटा शोर है, या यदि मैं इस शब्द का उपयोग कर सकता हूं तो क्या यह वास्तव में "ढेलेदार / क्लस्टर-ईश" है?
वेन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.