क्या कोई मुझे बता सकता है कि 'अवशिष्ट बनाम फिट', 'सामान्य q-q', 'स्केल-लोकेशन' और 'अवशिष्ट बनाम लीवरेज' प्लॉट की व्याख्या कैसे करें? मैं एक द्विपद जीएलएम फिटिंग कर रहा हूं, इसे बचा रहा हूं और फिर इसे साजिश रच रहा हूं।
क्या कोई मुझे बता सकता है कि 'अवशिष्ट बनाम फिट', 'सामान्य q-q', 'स्केल-लोकेशन' और 'अवशिष्ट बनाम लीवरेज' प्लॉट की व्याख्या कैसे करें? मैं एक द्विपद जीएलएम फिटिंग कर रहा हूं, इसे बचा रहा हूं और फिर इसे साजिश रच रहा हूं।
जवाबों:
R
एक अलग plot.glm()
विधि नहीं है । जब आप किसी मॉडल के साथ फिट होते हैं glm()
और दौड़ते हैं plot()
, तो वह कॉल करता है ? Plot.lm , जो लीनियर मॉडल (यानी, सामान्य रूप से वितरित त्रुटि के साथ) के लिए उपयुक्त है।
सामान्य तौर पर, इन भूखंडों का अर्थ (कम से कम रैखिक मॉडल के लिए) सीवी पर विभिन्न मौजूदा थ्रेड्स में सीखा जा सकता है (उदाहरण के लिए: अवशिष्ट बनाम फिट ; कई स्थानों में qq- भूखंड: 1 , 2 , 3 ; स्केल-लोकेशन ; अवशिष्ट ; बनाम उत्तोलन )। हालांकि, उन व्याख्याओं को आम तौर पर मान्य नहीं किया जाता है जब प्रश्न में मॉडल एक लॉजिस्टिक प्रतिगमन है।
विशेष रूप से, भूखंड अक्सर 'मज़ेदार दिखेंगे' और लोगों को यह विश्वास दिलाने के लिए नेतृत्व करते हैं कि मॉडल के साथ कुछ गड़बड़ है जब यह पूरी तरह से ठीक है। हम यह देख सकते हैं कि उन प्लॉटों को सरल सिमुलेशन के एक जोड़े के साथ देखा जा सकता है जहाँ हमें पता है कि मॉडल सही है:
# we'll need this function to generate the Y data:
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }
set.seed(10) # this makes the simulation exactly reproducible
x = runif(20, min=0, max=10) # the X data are uniformly distributed from 0 to 10
lo = -3 + .7*x # this is the true data generating process
p = lo2p(lo) # here I convert the log odds to probabilities
y = rbinom(20, size=1, prob=p) # this generates the Y data
mod = glm(y~x, family=binomial) # here I fit the model
summary(mod) # the model captures the DGP very well & has no
# ... # obvious problems:
# Deviance Residuals:
# Min 1Q Median 3Q Max
# -1.76225 -0.85236 -0.05011 0.83786 1.59393
#
# Coefficients:
# Estimate Std. Error z value Pr(>|z|)
# (Intercept) -2.7370 1.4062 -1.946 0.0516 .
# x 0.6799 0.3261 2.085 0.0371 *
# ...
#
# Null deviance: 27.726 on 19 degrees of freedom
# Residual deviance: 21.236 on 18 degrees of freedom
# AIC: 25.236
#
# Number of Fisher Scoring iterations: 4
अब हम उन भूखंडों पर नज़र डालते हैं जिन्हें हम प्राप्त करते हैं plot.lm()
:
दोनों Residuals vs Fitted
और Scale-Location
भूखंड ऐसे दिखते हैं जैसे मॉडल के साथ समस्याएं हैं, लेकिन हम जानते हैं कि कोई भी नहीं है। रैखिक भूखंडों के लिए अभिप्रायित ये भूखंड प्रायः भ्रामक प्रतिगमन मॉडल के साथ प्रयोग किए जाने पर भ्रामक होते हैं।
आइए एक और उदाहरण देखें:
set.seed(10)
x2 = rep(c(1:4), each=40) # X is a factor with 4 levels
lo = -3 + .7*x2
p = lo2p(lo)
y = rbinom(160, size=1, prob=p)
mod = glm(y~as.factor(x2), family=binomial)
summary(mod) # again, everything looks good:
# ...
# Deviance Residuals:
# Min 1Q Median 3Q Max
# -1.0108 -0.8446 -0.3949 -0.2250 2.7162
#
# Coefficients:
# Estimate Std. Error z value Pr(>|z|)
# (Intercept) -3.664 1.013 -3.618 0.000297 ***
# as.factor(x2)2 1.151 1.177 0.978 0.328125
# as.factor(x2)3 2.816 1.070 2.632 0.008481 **
# as.factor(x2)4 3.258 1.063 3.065 0.002175 **
# ...
#
# Null deviance: 160.13 on 159 degrees of freedom
# Residual deviance: 133.37 on 156 degrees of freedom
# AIC: 141.37
#
# Number of Fisher Scoring iterations: 6
अब सभी भूखंड अजीब लग रहे हैं।
तो ये प्लॉट आपको क्या दिखाते हैं?
Residuals vs Fitted
साजिश, मदद कर सकते हैं जैसा कि आप देख, उदाहरण के लिए अगर वहाँ वक्रीय प्रवृत्तियों, जिनसे आप चूक रहे हैं। लेकिन एक लॉजिस्टिक रिग्रेशन का फिट होना स्वभाव से वक्र है, इसलिए आप कुछ भी नहीं के साथ अवशिष्ट में अजीब लगने वाले रुझान हो सकते हैं। Normal Q-Q
साजिश का पता लगाने आप अगर अपने बच सामान्य रूप से वितरित कर रहे हैं मदद करता है। लेकिन मॉडल को मान्य होने के लिए अवशिष्ट अवशिष्टों को सामान्य रूप से वितरित नहीं करना पड़ता है, इसलिए अवशिष्टों की सामान्यता / गैर-सामान्यता आपको कुछ भी नहीं बताती है। Scale-Location
भूखंड आप heteroscedasticity की पहचान कर सकते हैं। लेकिन लॉजिस्टिक रिग्रेशन मॉडल स्वभाव से बहुत अधिक विषम हैं। Residuals vs Leverage
आप संभव बाहरी कारकों के कारण की पहचान कर सकते हैं। लेकिन लॉजिस्टिक रिग्रेशन में आउटलेर अनिवार्य रूप से रैखिक रिग्रेशन की तरह प्रकट नहीं होते हैं, इसलिए यह प्लॉट उनकी पहचान करने में मददगार हो सकता है या नहीं भी। यहाँ सरल पाठ सबक यह है कि ये प्लॉट आपके लॉजिस्टिक रिग्रेशन मॉडल के साथ क्या चल रहा है, यह समझने में मदद करने के लिए उपयोग करने के लिए बहुत कठिन हो सकते हैं। यह संभवतः लोगों के लिए सबसे अच्छा है कि जब तक उनके पास पर्याप्त विशेषज्ञता न हो, लॉजिस्टिक रिग्रेशन चलाते समय इन भूखंडों को न देखें।
कई पहलुओं में वहाँ के रूप में (जैसे समान हैं प्रतिगमन की मान्यताओं पर और अधिक पढ़ें यहाँ आर में प्रतिगमन पर, या ट्यूटोरियल यहाँ )।