लीनियर रिग्रेशन और लॉजिस्टिक रिग्रेशन में क्या अंतर है?


242

जब हमें किसी श्रेणीगत (या असतत) परिणाम के मूल्य का अनुमान लगाना होता है लॉजिस्टिक रिग्रेशन का । मेरा मानना ​​है कि हम रेखीय प्रतिगमन का उपयोग इनपुट मानों को दिए गए परिणाम के मूल्य की भविष्यवाणी करने के लिए भी करते हैं।

फिर, दो तरीकों के बीच अंतर क्या है?

जवाबों:


270
  • संभावनाओं के रूप में रैखिक प्रतिगमन उत्पादन

    यह रेखीय प्रतिगमन आउटपुट को संभाव्यता के रूप में उपयोग करने के लिए लुभाता है, लेकिन यह एक गलती है क्योंकि उत्पादन नकारात्मक हो सकता है, और 1 से अधिक हो सकता है जबकि संभावना नहीं हो सकती है। जैसा कि प्रतिगमन वास्तव में संभावनाएं उत्पन्न कर सकता है जो 0 से कम हो सकता है, या 1 से भी बड़ा हो सकता है, लॉजिस्टिक प्रतिगमन पेश किया गया था।

    स्रोत: http://gerardnico.com/wiki/data_mining/simple_logistic_regression

    यहां छवि विवरण दर्ज करें

  • परिणाम

    रैखिक प्रतिगमन में, परिणाम (निर्भर चर) निरंतर है। इसके पास संभावित मूल्यों की अनंत संख्या में से कोई भी हो सकता है।

    लॉजिस्टिक रिग्रेशन में, परिणाम (आश्रित चर) में सीमित संख्या में संभावित मान होते हैं।

  • आश्रित चर

    लॉजिस्टिक रिग्रेशन का उपयोग तब किया जाता है जब प्रतिक्रिया चर प्रकृति में श्रेणीबद्ध हो। उदाहरण के लिए, हाँ / नहीं, सही / गलत, लाल / हरा / नीला, पहला / दूसरा / तीसरा / चौथा, आदि।

    रैखिक प्रतिगमन का उपयोग तब किया जाता है जब आपका प्रतिक्रिया चर निरंतर होता है। मसलन, वजन, ऊंचाई, घंटों की संख्या आदि।

  • समीकरण

    रैखिक प्रतिगमन एक समीकरण देता है जो फॉर्म Y = mX + C का है, जिसका अर्थ है डिग्री 1 के साथ समीकरण।

    हालाँकि, लॉजिस्टिक रिग्रेशन एक समीकरण देता है जो फॉर्म Y = e X + e -X का है

  • गुणांक की व्याख्या

    रैखिक प्रतिगमन में, स्वतंत्र चर की गुणांक व्याख्या काफी सीधी होती है (अर्थात अन्य सभी चर को स्थिर रखते हुए, इस चर में एक इकाई वृद्धि के साथ, आश्रित चर xxx द्वारा वृद्धि / कमी की उम्मीद है)।

    हालांकि, लॉजिस्टिक रिग्रेशन में, परिवार (द्विपद, पॉसों, आदि) और लिंक (लॉग, लॉगिट, इनवर्स-लॉग, आदि) पर निर्भर करता है, जिसका आप उपयोग करते हैं, व्याख्या अलग है।

  • त्रुटि कम करने की तकनीक

    रैखिक प्रतिगमन त्रुटियों को कम करने और एक सर्वोत्तम संभव फिट पर पहुंचने के लिए साधारण न्यूनतम वर्गों की विधि का उपयोग करता है, जबकि लॉजिस्टिक प्रतिगमन समाधान पर पहुंचने के लिए अधिकतम संभावना विधि का उपयोग करता है ।

    रैखिक प्रतिगमन आमतौर पर मॉडल की कम से कम चौकोर त्रुटि को डेटा द्वारा कम करके हल किया जाता है, इसलिए बड़ी त्रुटियों को द्विघात रूप से दंडित किया जाता है।

    लॉजिस्टिक रिग्रेशन ठीक इसके विपरीत है। लॉजिस्टिक लॉस फंक्शन का उपयोग करने से बड़ी त्रुटियों को एक असंगत रूप से स्थिर करने के लिए दंडित किया जाता है।

    श्रेणीवाचक {0, 1} परिणामों पर रैखिक प्रतिगमन पर विचार करें कि यह समस्या क्यों है। यदि आपका मॉडल भविष्यवाणी करता है कि परिणाम 38 है, जब सच्चाई 1 है, तो आपने कुछ भी नहीं खोया है। रैखिक प्रतिगमन 38 को कम करने की कोशिश करेगा, लॉजिस्टिक ( 2 ) जितना नहीं होगा ।


क्या Y = e ^ X / 1 + e ^ -X और Y = e ^ X + e ^ -X में अंतर है?
एमएमएस

3
ई ^ एक्स / 1? 1 से विभाजित कुछ भी समान है। इसलिए कोई अंतर नहीं है। मुझे यकीन है कि आप कुछ और पूछना चाहते थे।
अंतरिक्ष यात्री

मुझे पता है कि यह एक पुराना धागा है, लेकिन आपका कथन "लॉजिस्टिक रिग्रेशन का उपयोग तब किया जाता है जब प्रतिक्रिया चर प्रकृति में स्पष्ट होती है। उदाहरण के लिए, हां / नहीं, सही / गलत, लाल / हरा / नीला, 1/2/3/4/4, आदि। "; इसके बाद और वर्गीकरण में क्या अंतर है?
किंग जूलियन

@kingJulian लॉजिस्टिक प्रतिगमन वास्तव में वर्गीकरण के लिए उपयोग किया जाता है। चेक इस बाहर, आप इसे उपयोगी रहा है के रूप में मिल सकती है
QuantumHoneybees

@kingJulian: लॉजिस्टिक प्रतिगमन एक वर्गीकरण तकनीक है और वर्गीकरण कई एल्गोरिदम के लिए है जो कुछ परिणामों की भविष्यवाणी करने की कोशिश करते हैं।
user3676305

204

रैखिक प्रतिगमन में, परिणाम (निर्भर चर) निरंतर है। इसके पास संभावित मूल्यों की अनंत संख्या में से कोई भी हो सकता है। लॉजिस्टिक रिग्रेशन में, परिणाम (आश्रित चर) में सीमित संख्या में संभावित मान होते हैं।

उदाहरण के लिए, यदि X में घरों के वर्ग फुट में क्षेत्र है, और Y में उन घरों की बिक्री मूल्य शामिल है, तो आप घर के आकार के एक समारोह के रूप में बिक्री मूल्य की भविष्यवाणी करने के लिए रैखिक प्रतिगमन का उपयोग कर सकते हैं। हालांकि बिक्री की संभावित कीमत वास्तव में कोई भी नहीं हो सकती है , लेकिन बहुत सारे संभावित मूल्य हैं कि एक रैखिक प्रतिगमन मॉडल चुना जाएगा।

यदि, इसके बजाय, आप आकार के आधार पर अनुमान लगाना चाहते हैं कि क्या कोई घर $ 200K से अधिक में बेचेगा, तो आप लॉजिस्टिक रिग्रेशन का उपयोग करेंगे। संभावित आउटपुट या तो हां, घर $ 200K से अधिक के लिए बेचेंगे, या नहीं, घर नहीं होगा।


3
कैंसर के एंड्रयूज लॉजिस्टिक रिग्रेशन उदाहरण में, मैं एक क्षैतिज रेखा y = .5 खींच सकता हूं, (जो स्पष्ट रूप से y = .5 से गुजरता है), दस यदि कोई बिंदु इस रेखा से ऊपर है y = .5 => + ve, और -ve। । तो फिर मुझे लॉजिस्टिक रिग्रेशन की आवश्यकता क्यों है। Im सिर्फ लॉजिस्टिक प्रतिगमन का उपयोग करने के लिए सबसे अच्छा मामला स्पष्टीकरण समझने की कोशिश कर रहा हूं?
विनीता

@vinita: वर्गीकरण समस्याओं के लिए रैखिक प्रतिगमन और फिर थ्रेड होल्डिंग का उपयोग नहीं करने के लिए यहां या यहां एक सरल उदाहरण है।
अंकुश शाह

3
लॉजिस्टिक रिग्रेशन लीनियर रिग्रेशन की तुलना में श्रेणीबद्ध डेटा पर बेहतर क्लासिफायरियर है। यह कम से कम वर्गों के बजाय क्रॉस-एंट्रोपी त्रुटि फ़ंक्शन का उपयोग करता है। इसके अलावा यह नहीं है कि आउटलेर्स के प्रति संवेदनशीलता और यह भी कम से कम वर्गों की तरह "सही" डेटा बिंदुओं को दंडित नहीं करता है।
मार्सेल_मारसेल 1991

15

बस पिछले उत्तरों पर जोड़ना है।

रेखीय प्रतिगमन

का अर्थ किसी दिए गए तत्व X (कहते हैं f (x)) के लिए आउटपुट मान की भविष्यवाणी / अनुमान करने की समस्या को हल करना है। भविष्यवाणी का परिणाम एक विशिष्ट कार्य है जहां मूल्य सकारात्मक या नकारात्मक हो सकते हैं। इस मामले में आपके पास आम तौर पर बहुत सारे उदाहरणों के साथ एक इनपुट डेटासेट होता है और उनमें से प्रत्येक के लिए आउटपुट मूल्य। लक्ष्य इस डेटा सेट के लिए एक मॉडल को फिट करने में सक्षम होना है ताकि आप नए अलग / कभी नहीं देखे गए तत्वों के लिए उस आउटपुट का अनुमान लगा सकें। निम्नलिखित बिंदुओं के सेट करने के लिए एक पंक्ति को फिट करने का शास्त्रीय उदाहरण है, लेकिन सामान्य रूप से रैखिक प्रतिगमन को अधिक जटिल मॉडल (उच्च बहुपद डिग्री का उपयोग करके) फिट करने के लिए इस्तेमाल किया जा सकता है:

यहां छवि विवरण दर्ज करें समस्या का समाधान

रैखिक प्रतिगमन को दो अलग-अलग तरीकों से हल किया जा सकता है:

  1. सामान्य समीकरण (समस्या को हल करने का सीधा तरीका)
  2. ग्रेडिएंट डिसेंट (Iterative अप्रोच)

रसद प्रतिगमन

का मतलब उन वर्गीकरण समस्याओं को हल करना है जहां एक तत्व दिया गया है जिसे आपको एन श्रेणियों में वर्गीकृत करना होगा। उदाहरण के लिए उदाहरण दिए गए हैं कि इसे स्पैम या नहीं के रूप में वर्गीकृत करने के लिए एक मेल दिया गया है, या किसी वाहन को दिया गया है जो कि वह श्रेणी (कार, ट्रक, वैन, इत्यादि) है। यह मूल रूप से उत्पादन अवरोही मूल्यों का एक सीमित सेट है।

समस्या का समाधान

लॉजिस्टिक रिग्रेशन समस्याओं को केवल ग्रेडिएंट डिसेंट का उपयोग करके हल किया जा सकता है। सामान्य रूप में सूत्रीकरण रेखीय प्रतिगमन के समान है एकमात्र अंतर विभिन्न परिकल्पना फ़ंक्शन का उपयोग है। रैखिक प्रतिगमन में परिकल्पना का रूप है:

h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 .. 

जहां थीटा वह मॉडल है जिसे हम फिट करने की कोशिश कर रहे हैं और [1, x_1, x_2, ..] इनपुट वेक्टर है। लॉजिस्टिक रिग्रेशन में परिकल्पना फ़ंक्शन अलग है:

g(x) = 1 / (1 + e^-x)

यहां छवि विवरण दर्ज करें

इस फ़ंक्शन की एक अच्छी संपत्ति है, मूल रूप से यह किसी भी मूल्य को सीमा [0,1] के लिए मैप करता है जो कि क्लासिसैटिन के दौरान प्रसार को संभालने के लिए उपयुक्त है। उदाहरण के लिए बाइनरी वर्गीकरण जी (एक्स) के मामले में सकारात्मक वर्ग से संबंधित होने की संभावना के रूप में व्याख्या की जा सकती है। इस मामले में आम तौर पर आपके पास अलग-अलग वर्ग होते हैं जो एक निर्णय सीमा से अलग होते हैं जो मूल रूप से एक वक्र होता है जो विभिन्न वर्गों के बीच अलगाव का फैसला करता है। निम्नलिखित दो वर्गों में अलग किए गए डेटासेट का एक उदाहरण है।

यहां छवि विवरण दर्ज करें


7

वे दोनों समाधान के लिए हल करने में काफी समान हैं, लेकिन जैसा कि दूसरों ने कहा है, एक (लॉजिस्टिक रिग्रेशन) एक श्रेणी "फिट" (Y / N या 1/0) की भविष्यवाणी करने के लिए है, और दूसरा (रैखिक प्रतिगमन) भविष्यवाणी करने के लिए है एक कीमत।

इसलिए यदि आप कैंसर Y / N (या प्रायिकता) की भविष्यवाणी करना चाहते हैं - लॉजिस्टिक का उपयोग करें। यदि आप जानना चाहते हैं कि आप कितने वर्षों तक जीवित रहेंगे - रैखिक प्रतिगमन का उपयोग करें!


6

मूल अंतर:

रैखिक प्रतिगमन मूल रूप से एक प्रतिगमन मॉडल है जिसका अर्थ है कि यह एक गैर-विचारशील / फ़ंक्शन के निरंतर आउटपुट देगा। तो यह दृष्टिकोण मूल्य देता है। उदाहरण के लिए: दिया गया x जो f (x) है

उदाहरण के लिए, अलग-अलग कारकों का एक प्रशिक्षण सेट और संपत्ति की कीमत प्रशिक्षण के बाद हम यह निर्धारित करने के लिए आवश्यक कारक प्रदान कर सकते हैं कि संपत्ति की कीमत क्या होगी।

लॉजिस्टिक रिग्रेशन मूल रूप से एक द्विआधारी वर्गीकरण एल्गोरिथ्म है जिसका अर्थ है कि यहां फ़ंक्शन के लिए विचारशील मूल्यवान आउटपुट होगा। उदाहरण के लिए: किसी दिए गए x के लिए यदि f (x)> थ्रेशोल्ड इसे 1 के रूप में वर्गीकृत करता है तो इसे 0 होने के लिए वर्गीकृत करें।

उदाहरण के लिए प्रशिक्षण डेटा के रूप में ब्रेन ट्यूमर के आकार का एक सेट दिया गया है, हम यह निर्धारित करने के लिए इनपुट के रूप में आकार का उपयोग कर सकते हैं कि क्या यह एक बेनीन या घातक ट्यूमर है। इसलिए यहाँ आउटपुट 0 या 1 है।

* यहाँ फ़ंक्शन मूल रूप से परिकल्पना फ़ंक्शन है


5

सीधे शब्दों में कहें, रैखिक प्रतिगमन एक प्रतिगमन एल्गोरिथ्म है, जो एक संभावित महाद्वीप और अनंत मूल्य को समाप्त करता है; लॉजिस्टिक रिग्रेशन को एक बाइनरी क्लासिफायर एल्गोरिथ्म के रूप में माना जाता है, जो एक लेबल (0 या 1) से संबंधित इनपुट की 'संभावना' को आउटपुट करता है।


शुक्रिया, मैंने आपके नोट को प्रायिकता के बारे में पढ़ा। बाइनरी क्लासिफायर के रूप में लॉजिस्टिक को लिखने के बारे में था।
HashRocketSyntax

4

प्रतिगमन का अर्थ है निरंतर परिवर्तनशील, रैखिक का अर्थ है y और x के बीच रैखिक संबंध। Ex = आप वर्षों के अनुभव से वेतन की भविष्यवाणी करने की कोशिश कर रहे हैं। तो यहाँ वेतन स्वतंत्र चर (y) है और अनुभव का yrs निर्भर चर (x) है। y = b0 + b1 * X1 रेखीय प्रतिगमन हम निरंतर b0 और b1 का इष्टतम मूल्य खोजने की कोशिश कर रहे हैं जो हमें आपके अवलोकन डेटा के लिए सबसे अच्छी फिटिंग लाइन देगा। यह रेखा का एक समीकरण है जो x = 0 से बहुत बड़े मूल्य तक निरंतर मूल्य देता है। इस रेखा को रैखिक प्रतिगमन मॉडल कहा जाता है।

लॉजिस्टिक रिग्रेशन वर्गीकरण तकनीक का प्रकार है। अवधि प्रतिगमन द्वारा गुमराह नहीं किया जाना चाहिए। यहां हम भविष्यवाणी करते हैं कि क्या y = 0 या 1।

यहाँ हमें सबसे पहले p (y = 1) (y = 1 की wprobability) नीचे दिए गए फॉर्मूले से x खोजने की आवश्यकता है।

समस्या

प्रोबेलिबिलिटी पी, फॉर्मूले के नीचे y से संबंधित है

रों

Ex = हम कैंसर के 50% से अधिक होने की संभावना का वर्गीकरण कर सकते हैं क्योंकि 1 और ट्यूमर के कैंसर होने की संभावना 50% से कम होती है। 5

यहाँ लाल बिंदु की भविष्यवाणी 0 के रूप में की जाएगी जबकि हरे बिंदु की भविष्यवाणी 1 के रूप में की जाएगी।


1

संक्षेप में: रैखिक प्रतिगमन निरंतर उत्पादन देता है। यानी मूल्यों की एक सीमा के बीच कोई मूल्य। लॉजिस्टिक रिग्रेशन असतत आउटपुट देता है। यानी हां / नहीं, 0/1 तरह के आउटपुट।


1

उपरोक्त टिप्पणियों से अधिक सहमत नहीं हो सकते। उसके ऊपर, कुछ और अंतर हैं जैसे कि

रैखिक प्रतिगमन में, अवशिष्ट को सामान्य रूप से वितरित माना जाता है। लॉजिस्टिक रिग्रेशन में, अवशिष्ट को स्वतंत्र होने की आवश्यकता होती है, लेकिन सामान्य रूप से वितरित नहीं की जाती है।

रैखिक प्रतिगमन मानता है कि व्याख्यात्मक चर के मूल्य में निरंतर परिवर्तन से प्रतिक्रिया चर में निरंतर परिवर्तन होता है। यह धारणा पकड़ में नहीं आती है यदि प्रतिक्रिया चर का मान एक संभाव्यता (लॉजिस्टिक रिग्रेशन में) का प्रतिनिधित्व करता है

GLM (सामान्यीकृत रैखिक मॉडल) निर्भर और स्वतंत्र चर के बीच एक रैखिक संबंध नहीं मानता है। हालाँकि, यह लॉग फ़ंक्शन में लिंक फ़ंक्शन और स्वतंत्र चर के बीच एक रैखिक संबंध मानता है।


1
| Basis                                                           | Linear                                                                         | Logistic                                                                                                            |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic                                                           | The data is modelled using a straight line.                                    | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required                                                                    | Not required                                                                                                        |
| The independent variable                                        | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist).                                              |

0

इसे सीधे शब्दों में कहें, अगर रैखिक प्रतिगमन मॉडल में अधिक परीक्षण मामले आते हैं जो कि y = 1 और y = 0 की भविष्यवाणी के लिए दहलीज (कहना = 0.5) से बहुत दूर हैं। फिर उस स्थिति में परिकल्पना बदल जाएगी और बदतर हो जाएगी। कहीं भी रेखीय प्रतिगमन मॉडल का उपयोग वर्गीकरण समस्या के लिए नहीं किया जाता है।

एक अन्य समस्या यह है कि यदि वर्गीकरण y = 0 और y = 1 है, तो h (x) हो सकता है> 1 या <0.So हम लॉजिस्टिक प्रतिगमन का उपयोग करते थे 0 <= h (x) <= 1।


0

लॉजिस्टिक रिग्रेशन का उपयोग यस / नो, लो / मीडियम / हाई आदि जैसे श्रेणीबद्ध आउटपुट की भविष्यवाणी करने में किया जाता है। आपके पास मूल रूप से 2 प्रकार के लॉजिस्टिक रिग्रेशन बाइनरी लॉजिस्टिक रिग्रेशन (यस / नो, एप्रूव्ड / डिसप्रूव्ड) या मल्टी-क्लास लिस्टिक रिग्रेशन (लो / मीडियम) है। / उच्च, अंक 0-9 आदि से)

दूसरी ओर, रैखिक प्रतिगमन है यदि आपका आश्रित चर (y) निरंतर है। y = mx + c एक सरल रेखीय प्रतिगमन समीकरण (m = ढलान और c y- अवरोधन है)। Multilinear प्रतिगमन में 1 से अधिक स्वतंत्र चर (X1, x2, x3 ... आदि) हैं


0

रैखिक प्रतिगमन में परिणाम निरंतर होता है जबकि लॉजिस्टिक रिग्रेशन में, परिणाम में सीमित संख्या में ही संभव मान (असतत) होते हैं।

उदाहरण: एक परिदृश्य में, x का दिया गया मान वर्ग फुट में एक भूखंड का आकार है और फिर भविष्यवाणी करता है कि y अर्थात भूखंड की दर रेखीय अवसाद के अंतर्गत आती है।

यदि, इसके बजाय, आप आकार के आधार पर भविष्यवाणी करना चाहते हैं कि क्या प्लाट 300000 रुपये से अधिक में बेचेगा, तो आप लॉजिस्टिक रिग्रेशन का उपयोग करेंगे। संभावित आउटपुट या तो हां, प्लॉट 300000 रुपये से अधिक में बेचेंगे, या नहीं।


0

रैखिक प्रतिगमन के मामले में परिणाम निरंतर है जबकि लॉजिस्टिक प्रतिगमन परिणाम के मामले में असतत है (निरंतर नहीं)

रैखिक प्रतिगमन करने के लिए हमें आश्रित और स्वतंत्र चर के बीच एक रैखिक संबंध की आवश्यकता होती है। लेकिन लॉजिस्टिक प्रतिगमन करने के लिए हमें आश्रित और स्वतंत्र चर के बीच एक रैखिक संबंध की आवश्यकता नहीं है।

रैखिक प्रतिगमन डेटा में एक सीधी रेखा के फिटिंग के बारे में है जबकि लॉजिस्टिक रिग्रेशन डेटा के लिए वक्र को फिट करने के बारे में है।

रैखिक प्रतिगमन मशीन लर्निंग के लिए एक प्रतिगमन एल्गोरिथ्म है जबकि लॉजिस्टिक प्रतिगमन मशीन लर्निंग के लिए एक वर्गीकरण एल्गोरिथम है।

रैखिक प्रतिगमन निर्भर चर के गौसियन (या सामान्य) वितरण को मानता है। लॉजिस्टिक रिग्रेशन निर्भर चर के द्विपद वितरण को मानता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.