लॉग-लीनियर रिग्रेशन बनाम लॉजिस्टिक रिग्रेशन


21

क्या कोई लॉग-लीनियर रिग्रेशन और लॉजिस्टिक रिग्रेशन के बीच अंतर की स्पष्ट सूची प्रदान कर सकता है? मैं समझता हूं कि पूर्व एक सरल रेखीय प्रतिगमन मॉडल है, लेकिन मुझे स्पष्ट नहीं है कि प्रत्येक का उपयोग कब किया जाना चाहिए।

जवाबों:


19

नाम थोड़ा सा मिथ्या नाम है। लॉग-लीनियर मॉडल परंपरागत रूप से एक आकस्मिक तालिका प्रारूप में डेटा के विश्लेषण के लिए उपयोग किया जाता था। जबकि "काउंट डेटा" को एक पॉइसन वितरण का पालन करने की आवश्यकता नहीं है, लॉग-लीनियर मॉडल वास्तव में सिर्फ पॉइसन प्रतिगमन मॉडल है। इसलिए "लॉग" नाम (पॉइसन रिग्रेशन मॉडल में "लॉग" लिंक फ़ंक्शन होता है)।

ए 'लोग इन तब्दील परिणाम चर "एक रेखीय प्रतिगमन मॉडल में है नहीं एक लॉग-रेखीय मॉडल, (न तो एक exponentiated परिणाम चर के रूप में है," लॉग-रैखिक "सुझाव है)। लॉग-लीनियर मॉडल और लॉजिस्टिक रिग्रेशन दोनों सामान्यीकृत रैखिक मॉडल के उदाहरण हैं , जिसमें एक रैखिक भविष्यवक्ता (जैसे लॉग-ऑड्स या लॉग-रेट) के बीच संबंध मॉडल चर में रैखिक होता है। वे "सरल रैखिक प्रतिगमन मॉडल" नहीं हैं (या सामान्य प्रारूप का उपयोग करके मॉडल )।[Y|एक्स]=+एक्स

इस सबके बावजूद, लॉजिस्टिक रिग्रेशन और पॉइसन रिग्रेशन का उपयोग करते हुए श्रेणीबद्ध चर के बीच संघों पर समान निष्कर्ष निकालना संभव है। यह सिर्फ इतना है कि पोइसन मॉडल में, परिणाम चर कोविराट की तरह व्यवहार किया जाता है। दिलचस्प बात यह है कि आप कुछ मॉडल सेट कर सकते हैं, जो आनुपातिक बाधाओं के मॉडल के समान समूहों में जानकारी उधार लेते हैं, लेकिन यह अच्छी तरह से समझा नहीं जाता है और शायद ही कभी उपयोग किया जाता है।

नीचे दिए गए R का उपयोग करके लॉजिस्टिक और पॉइसन रिग्रेशन मॉडल में समान अनुमान प्राप्त करने के उदाहरण:

y <- c(0, 1, 0, 1)
x <- c(0, 0, 1, 1)
w <- c(10, 20, 30, 40)

## odds ratio for relationship between x and y from logistic regression
glm(y ~ x, family=binomial, weights=w)

## the odds ratio is the same interaction parameter between contingency table frequencies
glm(w ~ y * x, family=poisson)

yएक्स


फिर, यह शायद मेरी अनुभवहीनता को दर्शाता है, लेकिन क्या आप आकस्मिक तालिकाओं के लिए एक परिभाषा प्रदान कर पाएंगे? यह उन लोगों की भी मदद कर सकता है जो इस सवाल पर आते हैं।
user38133

आकस्मिक तालिकाओं (आमतौर पर) 2 आयामी तालिकाएं होती हैं जो दो चर की सभी संभावित प्रतिक्रियाओं की गणना करती हैं और कोशिकाओं में टिप्पणियों की आवृत्ति दिखाती हैं। उदाहरण के लिए, आपके पास धूम्रपान करने की स्थिति (कभी बनाम वर्तमान) और कैंसर (फेफड़े की देखभाल बनाम कोई कैंसर) दिखाने वाली 2 से 2 आकस्मिक तालिका हो सकती है, जिसका उपयोग आप धूम्रपान और कैंसर के जोखिम के बीच संबंध का अनुमान लगाने के लिए करेंगे।
एडमो

15

मुझे नहीं लगता कि मैं उनमें से किसी को "सरल रैखिक प्रतिगमन मॉडल" कहूंगा। यद्यपि कई अलग-अलग मॉडलों के लिंक फ़ंक्शन के रूप में लॉग या लॉगिट ट्रांसफ़ॉर्मेशन का उपयोग करना संभव है, ये आमतौर पर विशिष्ट मॉडल को संदर्भित करने के लिए समझ में आते हैं। उदाहरण के लिए, "लॉजिस्टिक रिग्रेशन" को उन स्थितियों के लिए एक सामान्यीकृत रैखिक मॉडल (GLiM) समझा जाता है, जहां प्रतिक्रिया चर को द्विपद के रूप में वितरित किया जाता है । इसके अलावा, "लॉग-लीनियर रिग्रेशन" को आमतौर पर एक पॉइसन GLiM माना जाता है जो मल्टी-वे आकस्मिक तालिकाओं पर लागू होता है। दूसरे शब्दों में, इस तथ्य से परे कि वे दोनों प्रतिगमन मॉडल / जीएलआईएम हैं, मैं उन्हें आवश्यक रूप से बहुत समान नहीं देखता (उनके बीच कुछ संबंध हैं, जैसा कि @ अदमो बताते हैं, लेकिन विशिष्ट उपयोग काफी भिन्न हैं)। सबसे बड़ा अंतर यह होगा कि लॉजिस्टिक रिग्रेशन मान लेता है कि प्रतिक्रिया को द्विपद के रूप में वितरित किया जाता है और लॉग-लीनियर प्रतिगमन प्रतिसाद ग्रहण करता है, प्रतिक्रिया पोइसन के रूप में वितरित की जाती है । वास्तव में, लॉग-लीनियर रिग्रेशन ज्यादातर रिग्रेशन मॉडल से भिन्न होता है, जिसमें रिस्पॉन्स वैरिएबल वास्तव में आपके वैरिएबल्स में से एक (सामान्य अर्थ में) नहीं होता है, बल्कि आपके वैरिएबल के संयोजन से जुड़ी फ्रिक्वेंसी काउंट का सेट होता है। बहु-प्रकार आकस्मिक तालिका में।


धन्यवाद! मुझे लगता है कि मेरा स्वाभाविक अनुवर्ती प्रश्न, एक जो शायद मेरे अनुभव की कमी को दर्शाता है, यह निर्धारित करने के बारे में है कि किसी दिए गए समस्या को मॉडल करने के लिए सही वितरण क्या है। मुझे लगता है कि मुझे यह सुनिश्चित करने के लिए थोड़ा और पढ़ने की आवश्यकता होगी कि मैं हमेशा सही ढंग से चुन सकता हूं।
user38133

2
{0, 1}

0

स्पष्ट करने के लिए, "बाइनरी" लॉजिस्टिक प्रतिगमन में दो परिणामों के साथ एक आश्रित चर है। मेरी समझ यह है कि यदि आपके आश्रित, परिणाम चर में 2 से अधिक श्रेणियां हैं, तो "बहुराष्ट्रीय" लॉजिस्टिक प्रतिगमन का उपयोग करने का विकल्प भी है। देखें यहाँ

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.