लॉजिट-ट्रांसफॉर्मेड लीनियर रिग्रेशन, लॉजिस्टिक रिग्रेशन और लॉजिस्टिक मिक्स्ड मॉडल में क्या अंतर है?


10

मान लीजिए मेरे पास 10 छात्र हैं, जो प्रत्येक 20 गणित की समस्याओं को हल करने का प्रयास करते हैं। समस्याओं को सही या गलत (लॉन्गडेटा) में स्कोर किया जाता है और प्रत्येक छात्र के प्रदर्शन को एक सटीकता माप (उपडेटा में) द्वारा संक्षेपित किया जा सकता है। नीचे दिए गए मॉडल 1, 2 और 4 अलग-अलग परिणाम प्रस्तुत करते हैं, लेकिन मैं समझता हूं कि वे एक ही काम कर रहे हैं। वे अलग-अलग परिणाम क्यों दे रहे हैं? (मैंने संदर्भ के लिए मॉडल 3 शामिल किया है।)

library(lme4)

set.seed(1)
nsubjs=10
nprobs=20
subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5))
longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ]
longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4)
subjdata$acc = by(longdata$correct,longdata$subj,mean)
model1 = lm(logit(acc)~iq,subjdata)
model2 = glm(acc~iq,subjdata,family=gaussian(link='logit'))
model3 = glm(acc~iq,subjdata,family=binomial(link='logit'))
model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))

मैंने बीटा प्रतिगमन की भी कोशिश की, लेकिन एक त्रुटि हुई ... library(betareg) model5 = betareg(acc~scale(iq),subjdata)
user20061

library(car)लॉग फ़ंक्शन के लिए आवश्यक है।
user20061

1
यह आपको संबंधित प्रश्नों के मेरे दो उत्तरों को पढ़ने में मदद कर सकता है: लॉगिट और प्रोबेट मॉडल के बीच अंतर (जो सामान्य रूप से लिंक फ़ंक्शंस और GLMMs पर चर्चा करता है - विशेष रूप से एक टिप्पणी अंत में आपके 1 और 3 को संबोधित करता है), और सामान्यीकृत रैखिक मॉडल के बीच अंतर & सामान्यीकृत रैखिक मिश्रित मॉडल (जो चर्चा करता है कि आपका 4 1 और 3 से अलग कैसे है)।
गूँग - मोनिका

जवाबों:


15

मॉडल 1 और 2 अलग-अलग हैं क्योंकि पहला प्रतिक्रिया को बदल देता है और दूसरा इसका अपेक्षित मूल्य बदल देता है।

मॉडल 1 के लिए प्रत्येक प्रतिक्रिया का लॉग आम तौर पर वितरित किया जाता है अपने मतलब के साथ। भविष्यवक्ता और गुणांक वैक्टर का एक रेखीय कार्य है। और इसलिए मॉडल 2 के लिए प्रतिक्रिया स्वयं सामान्य रूप से वितरित की जाती है " इसके मतलब के साथ, जो कि भविष्यवक्ता और वैक्टर का एक रैखिक कार्य करता है और इसलिए μ मैं = एक्स ' मैं β वाई मैं = logit - 1 ( एक्स ' मैं β + ε मैं ) वाई मैं ~ एन ( μ ' मैं β ) + ε मैं

logitYiN(μi,σ2)
μi=xiβ
Yमैं=logit-1(एक्समैं'β+εमैं)
logit μ मैं = एक्स मैं बीटा वाई मैं = logit - 1 ( x
Yमैं~एन(μमैं,σ2)
logitμमैं=एक्समैंβ
Yमैं=logit-1(एक्समैं'β)+εमैं

इसलिए विचरण संरचना अलग होगी। मॉडल 2 से अनुकरण की कल्पना करें: विचरण अपेक्षित मूल्य से स्वतंत्र होगा; और हालांकि प्रतिक्रियाओं का अपेक्षित मान 0 और 1 के बीच होगा, प्रतिक्रियाएं सभी नहीं होंगी।

आपके मॉडल 4 की तरह सामान्यीकृत रैखिक मिश्रित मॉडल फिर से अलग होते हैं क्योंकि उनमें यादृच्छिक प्रभाव होते हैं: यहां और यहां देखें


बहुत बहुत धन्यवाद - यह बहुत स्पष्ट रूप से मॉडल 1 और मॉडल को अलग करता है 2. आपका तर्क मॉडल 2 कुछ सटीकता स्कोर की भविष्यवाणी करता है (हालांकि उनके अपेक्षित मूल्य नहीं) [0,1] बाहर होना विशेष रूप से सहायक है (और इसे मेरे उद्देश्यों के लिए अयोग्य घोषित करता है )। मेरा मानना ​​है कि एक समान अंतर्ज्ञान का उपयोग मॉडल 1 के खिलाफ किया जा सकता है: इसकी संभावित भविष्यवाणी की सटीकता स्कोर में गिरावट आती है (0,1) नहीं [0,1]। सीमित संख्या में प्रश्नों के साथ, एक मॉडल को 0 या 1 होने के लिए कुछ सटीकता स्कोर की भविष्यवाणी करनी चाहिए, और एक द्विपद वितरण बस ऐसा कर सकता है।
user20061

2
ध्यान दें कि आपको आमतौर पर कच्चे डेटा (आपके longdata) के खिलाफ लॉग इन लिंक के साथ द्विपद जीएलएम फिट करना चाहिए , न कि आपके मॉडल 3 के समानुपात में।
स्कॉर्टी - मोनिका

7

+1 से @Sortchi, जिसने बहुत स्पष्ट और संक्षिप्त उत्तर प्रदान किया है। मैं कुछ पूरक बिंदु बनाना चाहता हूं। सबसे पहले, अपने दूसरे मॉडल के लिए, आप निर्दिष्ट कर रहे हैं कि आपकी प्रतिक्रिया वितरण गॉसियन (उर्फ, सामान्य) है। यह गलत होना चाहिए, क्योंकि प्रत्येक उत्तर को सही या गलत माना जाता है। यही है, प्रत्येक उत्तर एक बर्नौली परीक्षण है। इस प्रकार, आपकी प्रतिक्रिया वितरण एक द्विपद है। यह विचार आपके कोड में भी सटीक रूप से परिलक्षित होता है। इसके बाद, संभावना जो प्रतिक्रिया वितरण को नियंत्रित करती है, सामान्य रूप से वितरित की जाती है, इसलिए लिंक को प्रोबिट होना चाहिए, न कि लॉगिट। अंत में, यदि यह एक वास्तविक स्थिति थी, तो आपको दोनों विषयों और प्रश्नों के यादृच्छिक प्रभावों के लिए खाते की आवश्यकता होगी, क्योंकि वे समान होने की संभावना नहीं है। जिस तरह से आपने ये डेटा उत्पन्न किया है, प्रत्येक व्यक्ति का एकमात्र प्रासंगिक पहलू उनका IQ है, जिसका आपने स्पष्ट रूप से हिसाब किया है। इस प्रकार, कुछ भी नहीं बचा है कि मॉडल में एक यादृच्छिक प्रभाव के लिए जिम्मेदार होना चाहिए। यह प्रश्नों के लिए भी सही है, क्योंकि प्रश्न कठिनाई में यादृच्छिक विविधताएं आपके कोड में डेटा जनरेट करने की प्रक्रिया का हिस्सा नहीं हैं।

मेरा मतलब यहाँ नाइटपैकिंग नहीं है। मैं मानता हूं कि आपका सेटअप केवल आपके प्रश्न को सुविधाजनक बनाने के लिए डिज़ाइन किया गया है, और इसने उस उद्देश्य को पूरा किया है; @Sortchi न्यूनतम उपद्रव के साथ, आपके सवालों को सीधे संबोधित करने में सक्षम था। हालाँकि, मैं इन बातों को इंगित करता हूं क्योंकि वे उस स्थिति को समझने के लिए अतिरिक्त अवसर प्रदान करते हैं, जिस स्थिति से आप जूझ रहे हैं, और क्योंकि आपने महसूस नहीं किया होगा कि आपका कोड आपके स्टोरीलाइन के कुछ हिस्सों से मेल खाता है, लेकिन दूसरों से नहीं।


मेरे कोड के बारे में इस तरह के सावधान विचारों के लिए धन्यवाद। जैसा कि कोई व्यक्ति अनुभवजन्य डेटा के साथ काम करता है, मुझे यह कहते हुए गर्व होता है कि मेरे पास नकली डेटा बनाने में कोई विशेषज्ञता नहीं है, और यह यहां उन कमियों को दर्शाता है जिन्हें आपने पहचाना है। हालाँकि, मेरी समझ का नौसिखिया स्तर भी खुद को प्रकट कर सकता है।
user20061

धन्यवाद गंग, वह अतिरिक्त जानकारी उपयोगी थी और दूसरों को (कम से कम मुझे) पूरी स्थिति को थोड़ा बेहतर समझने में मदद करती है। GLM दृष्टिकोण पर एक हैंडल प्राप्त करना कठिन है।
क्रिस्टोफर कवि
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.