लॉजिस्टिक रिग्रेशन के पीछे अंतर्ज्ञान


25

हाल ही में मैंने मशीन लर्निंग का अध्ययन करना शुरू किया, हालांकि मैं लॉजिस्टिक रिग्रेशन के पीछे के अंतर्ज्ञान को समझने में असफल रहा ।

लॉजिस्टिक रिग्रेशन के बारे में निम्नलिखित तथ्य हैं जो मुझे समझ में आए।

  1. परिकल्पना के आधार के रूप में हम सिग्माइड फ़ंक्शन का उपयोग करते हैं । मैं समझता हूं कि यह एक सही विकल्प क्यों है, हालांकि यह एकमात्र विकल्प है जो मुझे समझ में नहीं आता है। परिकल्पना इस संभावना का प्रतिनिधित्व करती है कि उपयुक्त आउटपुट 1 , इसलिए हमारे फ़ंक्शन का डोमेन होना चाहिए [0,1], यह सिग्मॉइड फ़ंक्शन का एकमात्र गुण है जो मुझे यहां उपयोगी और उपयुक्त मिला, हालांकि कई फ़ंक्शन इस संपत्ति को संतुष्ट करते हैं। इसके अलावा, सिग्मोइड फ़ंक्शन का इस रूप में व्युत्पन्न है f(x)(1f(x)), लेकिन मुझे लॉजिस्टिक प्रतिगमन में इस विशेष रूप की उपयोगिता नहीं दिखती है।

    प्रश्न : सिग्मॉइड फ़ंक्शन के बारे में क्या विशेष है, और हम डोमेन साथ किसी अन्य फ़ंक्शन का उपयोग क्यों नहीं कर सकते हैं ?[0,1]

  2. लागत समारोह दो पैरामीटर के होते हैं यदि y = 1 , सी एस टी ( θ ( एक्स ) , y ) = - log ( 1 - h θ ( x ) ) यदि y =Cost(hθ(x),y)=log(hθ(x))y=1,Cost(hθ(x),y)=log(1hθ(x))y=0 । उसी में जैसा कि ऊपर था, मुझे समझ में आया कि यह सही क्यों है, हालांकि यह एकमात्र रूप क्यों है? उदाहरण के लिए, क्यों नहीं कर सका लागत समारोह के लिए एक अच्छा विकल्प हो सकता है?|hθ(x)y|

    प्रश्न : उपरोक्त प्रकार के लागत समारोह के बारे में क्या खास है; हम दूसरे रूप का उपयोग क्यों नहीं कर सकते?

अगर आप लॉजिस्टिक रिग्रेशन की अपनी समझ साझा कर सकते हैं तो मैं इसकी सराहना करूंगा।


5
लॉजिट / लॉजिस्टिक फ़ंक्शन एकमात्र फ़ंक्शन नहीं है , जिसका उपयोग प्रतिगमन मॉडल के लिए लिंक फ़ंक्शन के रूप में किया जा सकता है जब प्रतिक्रिया को एक द्विपद के रूप में वितरित किया जाता है। इस बिंदु के बारे में, यह आपको मेरा उत्तर यहाँ पढ़ने में मदद कर सकता है: अंतर-बीच-लॉगिट-और-प्रोबिट-मॉडल
गूँग - मोनिका

4
मेरा जवाब यहां है: बाइनरी डेटा के प्रतिगमन मॉडलिंग के लिए लॉजिट फ़ंक्शन हमेशा सबसे अच्छा है , विभिन्न संभावनाओं के बारे में सोचने में भी सहायक हो सकता है।
गुंग - को पुनः स्थापित मोनिका

1
@ अदमो नीचे एक उत्कृष्ट अवलोकन प्रदान करता है। यदि आप इस बारे में अधिक विस्तृत जानकारी चाहते हैं कि इसका क्या मतलब है कि लॉगिट 'कैनोनिकल लिंक फंक्शन' है, तो आप मोमो के उत्तर को यहां पढ़ना चाहते हैं: अंतर-लिंक-लिंक-फ़ंक्शन और कैनोनिकल-लिंक-फ़ंक्शन-फॉर-ग्लम
गुंग - को पुनः स्थापित मोनिका

1
(1) का एक सचित्र उदाहरण काम करता है, जहाँ " sigmoid " का उपयोग नहीं किया जाता है, वह आँकड़े .stackexchange.com / a / 70922 पर दिखाई देता है । उस उत्तर में (2) का स्पष्टीकरण शामिल है। एक अन्य उदाहरण आँकड़े.स्टैकएक्सचेंज . com / questions / 63978 / पर दिखाई देता है । एक और अधिक सांसारिक (लेकिन कम तकनीकी) चर्चा, सांख्यिकी ( stackexchange.com/a/69873 ) पर होती है , जो मुद्दे (2) पर केंद्रित है।
whuber

जवाबों:


7

लॉजिस्टिक रिग्रेशन मॉडल प्राकृतिक पैरामीटर (लॉग-ऑड्स अनुपात) का उपयोग करने वाले अधिकतम संभावना है, जो कि भविष्यवक्ता में प्रति यूनिट अंतर के परिणाम के जोखिम में सापेक्ष परिवर्तनों के विपरीत है। यह, निश्चित रूप से, परिणाम के लिए एक द्विपद संभावना मॉडल है। इसका अर्थ है कि लॉजिस्टिक प्रतिगमन की स्थिरता और मजबूती गुण सीधे अधिकतम संभावना से विस्तारित होते हैं: यादृच्छिक डेटा, रूट-एन स्थिरता, और समीकरणों का आकलन करने के लिए समाधानों की अद्वितीयता और अस्तित्व में अनुपलब्ध। यह मान रहा है कि समाधान पैरामीटर स्पेस की सीमाओं पर नहीं हैं (जहां लॉग ऑड्स अनुपात )। क्योंकि लॉजिस्टिक रिग्रेशन अधिकतम संभावना है, नुकसान फ़ंक्शन संभावना से संबंधित है, क्योंकि वे समकक्ष अनुकूलन समस्याएं हैं।±

कैसिलिकेलिहुड या आकलन समीकरणों (अर्धवृत्ताकार आक्षेप) के साथ, अस्तित्व, विशिष्टता गुण अभी भी धारण करते हैं लेकिन यह धारणा कि माडल धारण प्रासंगिक नहीं है और मॉडल प्रक्षेपन की परवाह किए बिना निष्कर्ष और मानक त्रुटियां सुसंगत हैं। तो इस मामले में, यह कोई बात नहीं है कि क्या सिग्मोइड सही कार्य है, लेकिन एक जो हमें एक प्रवृत्ति देता है जिस पर हम विश्वास कर सकते हैं और पैरामीटर द्वारा एक एक्स्टेंसिबल व्याख्या है।

सिग्मॉइड, हालांकि, केवल ऐसा बाइनरी मॉडलिंग फ़ंक्शन नहीं है। सबसे अधिक विपरीत परिवीक्षाधीन फ़ंक्शन में समान गुण हैं। यह लॉग-ऑड अनुपातों का अनुमान नहीं लगाता है, लेकिन कार्यात्मक रूप से वे बहुत समान दिखते हैं और सटीक एक ही चीज़ के लिए बहुत समान सन्निकटन देते हैं । किसी को माध्य मॉडल फ़ंक्शन में बाउंडनेस गुणों का उपयोग करने की आवश्यकता नहीं है। बस एक द्विपद विचरण समारोह के साथ एक लॉग वक्र का उपयोग करना सापेक्ष जोखिम प्रतिगमन देता है, द्विपद विचरण के साथ एक पहचान लिंक अतिरिक्त जोखिम मॉडल देता है। यह सब उपयोगकर्ता द्वारा निर्धारित किया जाता है। लॉजिस्टिक रिग्रेशन की लोकप्रियता, दुख की बात है कि इसका इस्तेमाल आमतौर पर क्यों किया जाता है। हालांकि, मेरे पास मेरे कारण हैं (जो मैंने कहा था) मुझे लगता है कि यह सबसे द्विआधारी परिणाम मॉडलिंग परिस्थितियों में उपयोग करने के लिए अच्छी तरह से उचित है।

अनुमान निष्कर्ष में, दुर्लभ परिणामों के लिए, ऑड्स अनुपात को मोटे तौर पर "सापेक्ष जोखिम" के रूप में व्याख्या किया जा सकता है, अर्थात "एक्स + 1 से एक्स की तुलना के परिणाम के जोखिम में" प्रतिशत सापेक्ष परिवर्तन। यह हमेशा ऐसा नहीं होता है और सामान्य तौर पर, एक विषम अनुपात की व्याख्या नहीं की जा सकती है और इसकी व्याख्या नहीं की जानी चाहिए। हालांकि, उस मापदंडों की व्याख्या है और आसानी से अन्य शोधकर्ताओं के लिए संवाद किया जा सकता है एक महत्वपूर्ण बिंदु है, मशीन सीखने वालों की सामग्री से कुछ दुख की बात है।

लॉजिस्टिक रिग्रेशन मॉडल अधिक परिष्कृत दृष्टिकोणों के लिए वैचारिक नींव प्रदान करता है जैसे कि पदानुक्रमित मॉडलिंग, साथ ही मिश्रित मॉडलिंग और सशर्त संभावना दृष्टिकोण जो उपद्रव मापदंडों की तेजी से बढ़ती संख्या के अनुरूप और मजबूत हैं। GLMM और सशर्त लॉजिस्टिक प्रतिगमन उच्च आयामी आंकड़ों में बहुत महत्वपूर्ण अवधारणाएं हैं।


1
उत्तर देने के लिए आपका धन्यवाद! ऐसा लगता है कि पृष्ठभूमि में मेरी बहुत कमी है।
user16168

मुझे लगता है कि मैकुलॉफ और नेल्डर की किताब जनरलाइज्ड लीनियर मॉडल्स अधिक सांख्यिकी परिप्रेक्ष्य के लिए एक शानदार पृष्ठभूमि संसाधन होगी।
अदमो सिप

सामान्य तौर पर, बहुत विस्तृत वर्णनात्मक सामग्री के साथ मशीन सीखने में आप किस पाठ्यपुस्तक की सलाह देते हैं?
user16168

हस्ती, टिब्शिरानी, ​​फ्रीडमैन द्वारा सांख्यिकीय शिक्षा के तत्व।
एडमो

2
@ उपयोगकर्ता 48956 मिसिंग दादा, लिटिल एंड रूबिन 2 एड के साथ सांख्यिकीय विश्लेषण। मिसिंग डेटा प्रति से "प्रतिनिधित्व" नहीं है, लेकिन चूक से "नियंत्रित" है। यह विशेष रूप से लॉजिस्टिक प्रतिगमन के लिए नहीं है: यह सभी सांख्यिकीय मॉडलों द्वारा उपयोग किया जाने वाला भोली दृष्टिकोण है। जब आयताकार सरणी में डेटा को स्वरूपित किया जाता है, तो लापता मान वाली पंक्तियों को छोड़ दिया जाता है। इसे संपूर्ण केस विश्लेषण के रूप में जाना जाता है। GLMs और GLMMS इस मायने में लापता डेटा के लिए मजबूत हैं कि पूरा मामला विश्लेषण आमतौर पर निष्पक्ष और बहुत अक्षम नहीं है।
एडम जूल

6

लॉजिस्टिक रिग्रेशन के बारे में सोचने का एक तरीका थ्रेशोल्ड रिस्पांस मॉडल है। इन मॉडलों में, आपके पास एक द्विआधारी निर्भर चर है, , जो स्वतंत्र चर एक्स के एक वेक्टर के मूल्यों से प्रभावित है । आश्रित चर Y केवल मान 0 और 1 पर ले सकता है, इसलिए आप X पर Y की निर्भरता को किसी विशिष्ट रैखिक प्रतिगमन समीकरण जैसे Y i = X i β +I से नहीं जोड़ सकते । लेकिन हम वास्तव में, वास्तव में रैखिक समीकरणों को पसंद करते हैं। या कम से कम मुझे करना है।YXYYXYi=Xiβ+ϵi

इस स्थिति को मॉडल के लिए, हम एक सर्वनाश, अव्यक्त चर परिचय , और हम कहते हैं कि वाई 1 के बराबर है जब करने के लिए 0 के बराबर से चला जाता है Y * एक सीमा को पार करती है: Y * मैंYYY के रूप में मैं यह लिखा है, सीमा 0. पर यह एक भ्रम है तथापि, है। आम तौर पर, मॉडल में एक अवरोधन शामिल होता है (अर्थातXका एक स्तंभ 1 s का एक स्तंभ होता है)। इससे दहलीज कुछ भी हो सकती है।

Yi=Xiβ+ϵiYi=0ifYi<0Yi=1ifYi>0
X

इस मॉडल को प्रेरित करने के लिए, एक तंत्रिका-विष कीटनाशक के साथ कीड़े को मारने की सोचें। कितने तंत्रिका कोशिकाओं को मार डाला जाता है, और एक्स कुछ बग के लिए दिया कीटनाशक की खुराक भी शामिल है। Y तब 1 है जब कीट मर जाता है और यदि यह रहता है तो 0। यही कारण है, पर्याप्त तंत्रिका कोशिकाओं को मार डाला है, तो कर रहे हैं (और वाई * सीमा को पार करती है), तो बग मरता। यह वास्तव में कैसे न्यूरोटॉक्सिक कीटनाशक काम नहीं करता है, वैसे, लेकिन यह बहाना मजेदार है।YXYY

βϵFP{Yi=1}=F(Xiβ)

P{Yi=1}=1F(Xiβ)

ϵF

F


आपने जो वर्णन किया है वह वास्तव में प्रोबेट मॉडल के लिए प्रेरणा है, न कि लॉजिस्टिक प्रतिगमन।
एडमो

6
@ अदमो, अगर द εमैंएक लॉजिस्टिक वितरण है, तो यह लॉजिस्टिक प्रतिगमन का वर्णन करता है।
मैक्रो

यह एक बहुत ही संवेदनशील धारणा की तरह लगता है और एक जिसे परखना मुश्किल होगा। मुझे लगता है कि जब इस तरह के त्रुटि वितरण धारण नहीं करते तो लॉजिस्टिक रिग्रेशन को प्रेरित किया जा सकता है।
एडम

2
@ अदमो, हालांकि आप लॉजिस्टिक रिग्रेशन को प्रेरित करते हैं, यह अभी भी गणितीय रूप से एक थ्रेसहोल्ड रैखिक रिग्रेशन मॉडल के बराबर है जहां त्रुटियों का एक लॉजिस्टिक वितरण है। मैं मानता हूं कि इस धारणा का परीक्षण करना कठिन हो सकता है लेकिन यह इस बात की परवाह किए बिना है कि आप समस्या को कैसे प्रेरित करते हैं। मुझे सीवी पर एक पिछला उत्तर याद है (मैं इसे अभी नहीं दे सकता) जिसने एक सिमुलेशन अध्ययन के साथ दिखाया जो यह बताने की कोशिश कर रहा है कि क्या एक लॉजिस्टिक या प्रोबेट मॉडल "बेहतर रूप से फिट" था, मूल रूप से एक सिक्का फ्लिप था, सच्चे डेटा जनरेटिंग मॉडल की परवाह किए बिना। । मुझे संदेह है कि सुविधाजनक व्याख्या के कारण लॉजिस्टिक अधिक लोकप्रिय है।
मैक्रो

2
@ अदमो यह सामान्य अर्थशास्त्री / सांख्यिकीविद् का विभाजन है, लेकिन। । । मुझे नहीं लगता कि लॉजिस्टिक रिग्रेशन अर्ध-पैरामीट्रिक है। सांख्यिकीय मॉडल हैपी(Yमैं=1)=एक्सपी(एक्समैंβ)1+एक्सपी(एक्समैंβ)। वह पैरामीट्रिक है। एक (और मैं कर सकता हूँ) यह लॉजिस्टिक त्रुटि के साथ एक थ्रेसहोल्ड मॉडल से आने के रूप में व्याख्या करता है। अगर मुझे त्रुटि शब्द पर बहुत अधिक धारणा बनाने के बारे में चिंतित हैं, तो मैं लॉजिस्टिक प्रतिगमन को छोड़ने जा रहा हूं, न कि थ्रेसहोल्ड मॉडल को। उदाहरण के लिए, अधिकतम स्कोर और संबंधित अनुमानकों का उपयोग करके त्रुटि शर्तों पर थ्रेसहोल्ड मॉडल का अनुमान बहुत कमजोर धारणाओं के साथ लगाया जा सकता है।
बिल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.