प्लॉट की व्याख्या (glm.model)


30

क्या कोई मुझे बता सकता है कि 'अवशिष्ट बनाम फिट', 'सामान्य q-q', 'स्केल-लोकेशन' और 'अवशिष्ट बनाम लीवरेज' प्लॉट की व्याख्या कैसे करें? मैं एक द्विपद जीएलएम फिटिंग कर रहा हूं, इसे बचा रहा हूं और फिर इसे साजिश रच रहा हूं।


4
क्या आप जानते हैं कि एक नियमित रैखिक प्रतिगमन से निपटने के दौरान उन भूखंडों की व्याख्या कैसे करें? क्योंकि वह आपका शुरुआती बिंदु होना चाहिए।
स्टीव एस।

जवाबों:


55

Rएक अलग plot.glm()विधि नहीं है । जब आप किसी मॉडल के साथ फिट होते हैं glm()और दौड़ते हैं plot(), तो वह कॉल करता है ? Plot.lm , जो लीनियर मॉडल (यानी, सामान्य रूप से वितरित त्रुटि के साथ) के लिए उपयुक्त है।

सामान्य तौर पर, इन भूखंडों का अर्थ (कम से कम रैखिक मॉडल के लिए) सीवी पर विभिन्न मौजूदा थ्रेड्स में सीखा जा सकता है (उदाहरण के लिए: अवशिष्ट बनाम फिट ; कई स्थानों में qq- भूखंड: 1 , 2 , 3 ; स्केल-लोकेशन ; अवशिष्ट ; बनाम उत्तोलन )। हालांकि, उन व्याख्याओं को आम तौर पर मान्य नहीं किया जाता है जब प्रश्न में मॉडल एक लॉजिस्टिक प्रतिगमन है।

विशेष रूप से, भूखंड अक्सर 'मज़ेदार दिखेंगे' और लोगों को यह विश्वास दिलाने के लिए नेतृत्व करते हैं कि मॉडल के साथ कुछ गड़बड़ है जब यह पूरी तरह से ठीक है। हम यह देख सकते हैं कि उन प्लॉटों को सरल सिमुलेशन के एक जोड़े के साथ देखा जा सकता है जहाँ हमें पता है कि मॉडल सही है:

  # we'll need this function to generate the Y data:
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }

set.seed(10)                    # this makes the simulation exactly reproducible
x  = runif(20, min=0, max=10)   # the X data are uniformly distributed from 0 to 10
lo = -3 + .7*x                  # this is the true data generating process
p  = lo2p(lo)                   # here I convert the log odds to probabilities
y  = rbinom(20, size=1, prob=p) # this generates the Y data

mod = glm(y~x, family=binomial) # here I fit the model
summary(mod)                    # the model captures the DGP very well & has no
# ...                           #  obvious problems:
# Deviance Residuals: 
#      Min        1Q    Median        3Q       Max  
# -1.76225  -0.85236  -0.05011   0.83786   1.59393  
# 
# Coefficients:
#             Estimate Std. Error z value Pr(>|z|)  
# (Intercept)  -2.7370     1.4062  -1.946   0.0516 .
# x             0.6799     0.3261   2.085   0.0371 *
# ...
# 
# Null deviance: 27.726  on 19  degrees of freedom
# Residual deviance: 21.236  on 18  degrees of freedom
# AIC: 25.236
# 
# Number of Fisher Scoring iterations: 4

अब हम उन भूखंडों पर नज़र डालते हैं जिन्हें हम प्राप्त करते हैं plot.lm():

यहाँ छवि विवरण दर्ज करें

दोनों Residuals vs Fittedऔर Scale-Locationभूखंड ऐसे दिखते हैं जैसे मॉडल के साथ समस्याएं हैं, लेकिन हम जानते हैं कि कोई भी नहीं है। रैखिक भूखंडों के लिए अभिप्रायित ये भूखंड प्रायः भ्रामक प्रतिगमन मॉडल के साथ प्रयोग किए जाने पर भ्रामक होते हैं।

आइए एक और उदाहरण देखें:

set.seed(10)
x2 = rep(c(1:4), each=40)                    # X is a factor with 4 levels
lo = -3 + .7*x2
p  = lo2p(lo)
y  = rbinom(160, size=1, prob=p)

mod = glm(y~as.factor(x2), family=binomial)
summary(mod)                                 # again, everything looks good:
# ...
# Deviance Residuals: 
#   Min       1Q   Median       3Q      Max  
# -1.0108  -0.8446  -0.3949  -0.2250   2.7162  
# 
# Coefficients:
#                Estimate Std. Error z value Pr(>|z|)    
# (Intercept)      -3.664      1.013  -3.618 0.000297 ***
# as.factor(x2)2    1.151      1.177   0.978 0.328125    
# as.factor(x2)3    2.816      1.070   2.632 0.008481 ** 
# as.factor(x2)4    3.258      1.063   3.065 0.002175 ** 
# ... 
# 
# Null deviance: 160.13  on 159  degrees of freedom
# Residual deviance: 133.37  on 156  degrees of freedom
# AIC: 141.37
# 
# Number of Fisher Scoring iterations: 6

यहाँ छवि विवरण दर्ज करें

अब सभी भूखंड अजीब लग रहे हैं।

तो ये प्लॉट आपको क्या दिखाते हैं?

  • Residuals vs Fittedसाजिश, मदद कर सकते हैं जैसा कि आप देख, उदाहरण के लिए अगर वहाँ वक्रीय प्रवृत्तियों, जिनसे आप चूक रहे हैं। लेकिन एक लॉजिस्टिक रिग्रेशन का फिट होना स्वभाव से वक्र है, इसलिए आप कुछ भी नहीं के साथ अवशिष्ट में अजीब लगने वाले रुझान हो सकते हैं।
  • Normal Q-Qसाजिश का पता लगाने आप अगर अपने बच सामान्य रूप से वितरित कर रहे हैं मदद करता है। लेकिन मॉडल को मान्य होने के लिए अवशिष्ट अवशिष्टों को सामान्य रूप से वितरित नहीं करना पड़ता है, इसलिए अवशिष्टों की सामान्यता / गैर-सामान्यता आपको कुछ भी नहीं बताती है।
  • Scale-Locationभूखंड आप heteroscedasticity की पहचान कर सकते हैं। लेकिन लॉजिस्टिक रिग्रेशन मॉडल स्वभाव से बहुत अधिक विषम हैं।
  • Residuals vs Leverageआप संभव बाहरी कारकों के कारण की पहचान कर सकते हैं। लेकिन लॉजिस्टिक रिग्रेशन में आउटलेर अनिवार्य रूप से रैखिक रिग्रेशन की तरह प्रकट नहीं होते हैं, इसलिए यह प्लॉट उनकी पहचान करने में मददगार हो सकता है या नहीं भी।

यहाँ सरल पाठ सबक यह है कि ये प्लॉट आपके लॉजिस्टिक रिग्रेशन मॉडल के साथ क्या चल रहा है, यह समझने में मदद करने के लिए उपयोग करने के लिए बहुत कठिन हो सकते हैं। यह संभवतः लोगों के लिए सबसे अच्छा है कि जब तक उनके पास पर्याप्त विशेषज्ञता न हो, लॉजिस्टिक रिग्रेशन चलाते समय इन भूखंडों को न देखें।


5
अच्छा दु: ख यह एक अद्भुत प्रतिक्रिया है।
d8aninja

@ क्या आप कह सकते हैं कि अगर यह एक चमक है तो हम क्या कर सकते हैं? क्या QQ, अवशिष्ट बनाम फिट के लिए कोई विकल्प है? उदाहरण के लिए, मैंने एक कविता लिंक GLM प्लॉट किया, लेकिन मुझे पता नहीं है कि अगर यह अच्छी तरह से फिट है तो विश्लेषण कैसे करें
GRS

2
@GRS, इसे पढ़ने का प्रयास करें
गंग -

@ आपके सभी उत्तर विस्तृत और स्पष्ट हैं। इस साइट सहित कई स्रोतों से पढ़ने के अलावा, क्या आप नैदानिक ​​भूखंडों को समझने में 'काफी विशेषज्ञता' प्राप्त करने के लिए एक या दो अच्छी पुस्तकों / साइटों का उल्लेख कर सकते हैं? मैं समझता हूं कि कुछ कौशल हम केवल अभ्यास और अनुभव के साथ प्राप्त कर सकते हैं लेकिन यदि कोई विशेष पुस्तक / वेबसाइट विवरण को गहराई से कवर करती है यदि आप संदर्भित कर सकते हैं, तो यह बहुत मदद करेगा।
डॉ। निशा अरोड़ा

@DrNishaArora, वास्तव में ऐसा नहीं है कि मैं इससे अवगत हूं। हैं कुछ किताबें कि एलआर के लिए प्रासंगिक हैं, लेकिन उन्होनें कहा कारणों के लिए, इन भूखंडों पर ज्यादा समय खर्च करने के लिए नहीं जा रहे हैं।
गूँग - मोनिका

0
  1. रेजिड्यूल्स बनाम फिट - कोई मजबूत पैटर्न नहीं होना चाहिए (हल्के पैटर्न कोई समस्या नहीं है, @ गंग का जवाब देखें) और कोई आउटलेयर नहीं है, अवशिष्ट को यादृच्छिक रूप से शून्य के आसपास वितरित किया जाना चाहिए।
  2. सामान्य क्यूक्यू - अवशिष्ट को विकर्ण रेखा के चारों ओर जाना चाहिए, अर्थात सामान्य रूप से वितरित किया जाना चाहिए ( क्यूक्यू साजिश के लिए विकि देखें )। यह साजिश जांचने में मदद करती है कि क्या वे लगभग सामान्य हैं।
  3. स्केल-लोकेशन - जैसा कि आप देख सकते हैं, Y अक्ष पर अवशिष्ट भी होते हैं (जैसे रेजिड्यूल्स बनाम फिट प्लाट में), लेकिन उन्हें स्केल किया जाता है, इसलिए यह (1) के समान है, लेकिन कुछ मामलों में यह बेहतर काम करता है।
  4. अवशिष्ट बनाम उत्तोलन - यह बाह्य मामलों का निदान करने में मदद करता है। जैसा कि पिछले भूखंडों में, उदाहरण देने वाले मामले गिने जाते हैं, लेकिन इस साजिश पर अगर कोई भी ऐसा मामला है जो बाकी डेटा से बहुत अलग है , तो उन्हें पतली लाल रेखाओं के नीचे प्लॉट किया जाता है ( कुक की दूरी पर चेक विकी )।

कई पहलुओं में वहाँ के रूप में (जैसे समान हैं प्रतिगमन की मान्यताओं पर और अधिक पढ़ें यहाँ आर में प्रतिगमन पर, या ट्यूटोरियल यहाँ )।


2
यह प्रतिक्रिया glm के संदर्भ में गलत है, साथ ही ऊपर की प्रतिक्रिया में @gung द्वारा रखी गई है। अगर आप इस सवाल का जवाब ढूंढ रहे हैं, तो IGNORE THIS RESPONSE यदि आप इस प्रतिक्रिया के लेखक हैं, तो ऊपर दिए गए उत्तर को गंग द्वारा देखें। यदि आप सहमत हैं, तो आपको इस प्रतिक्रिया को हटाने पर विचार करना चाहिए, क्योंकि यह भ्रामक है।
कॉलिन

@colin क्या आप टिप्पणी करना चाहेंगे कि इस उत्तर के साथ आपकी राय में क्या गलत है? मेरा और दूसरे उत्तर के बीच एकमात्र अंतर यह है कि गंग अधिक विवरण में जाता है ...
टिम

3
आप वर्णन करते हैं कि इन भूखंडों का उपयोग रैखिक प्रतिगमन के संदर्भ में कैसे किया जाना चाहिए। गंग का वर्णन है कि ये व्याख्याएं इस मामले में क्यों विफल हो जाती हैं, क्योंकि उन्हें एक द्विपद glm मॉडल पर लागू किया जा रहा है। इसलिए, यदि कोई उपयोगकर्ता इन नैदानिक ​​भूखंडों की व्याख्या करता है जैसा कि आप सुझाव देते हैं (और आपके सुझाव एलएम के मामले में सहायक होंगे), तो वे गलत तरीके से निष्कर्ष निकालेंगे कि उनका मॉडल चमक की मान्यताओं का उल्लंघन करता है, जब वास्तव में ऐसा नहीं होता है।
कॉलिन

आप लिखते हैं, "रेजीड्यूल्स बनाम फिट - कोई पैटर्न नहीं होना चाहिए और कोई आउटलेयर नहीं होना चाहिए, अवशिष्ट बेतरतीब ढंग से" लगभग "होना चाहिए" गंग लिखते हैं, "रेसिड्यूल्स बनाम फिटेड प्लॉट आपको देखने में मदद कर सकता है, उदाहरण के लिए, अगर आपके द्वारा याद किए गए कर्विलियर हैं। लेकिन एक लॉजिस्टिक रिग्रेशन का फिट स्वभाव से वक्रतापूर्ण है, इसलिए आप अवशिष्ट में कुछ नहीं के साथ अजीब लग सकते हैं। गलत। " ... आप में से एक गलत होना चाहिए।
कॉलिन

2
मैं मानता हूं, यह काला और सफेद नहीं है, लेकिन ऐसे कई उदाहरण हैं जहां मजबूत रुझान हैं, लेकिन निर्दिष्ट मॉडल विशिष्ट चमक के अनुमानों के तहत पूरी तरह से उपयुक्त है। इसलिए, यह कहते हुए, "कोई पैटर्न नहीं होना चाहिए और कोई आउटलेयर नहीं होना चाहिए, अवशिष्ट को यादृच्छिक रूप से 0. के आसपास वितरित किया जाना चाहिए।" आसानी से व्याख्या की जाती है कि यदि कोई पैटर्न है, तो आपने मॉडल मान्यताओं का उल्लंघन किया है। यह मामला नहीं है।
कॉलिन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.