सामान्यीकृत रैखिक मॉडल में सामान्यता के लिए अवशिष्ट की जाँच करना


12

यह पेपर डेटा का विश्लेषण करने के लिए सामान्यीकृत रैखिक मॉडल (द्विपद और नकारात्मक द्विपद त्रुटि वितरण) का उपयोग करता है। लेकिन फिर विधियों के सांख्यिकीय विश्लेषण अनुभाग में, यह कथन है:

... और लॉजिस्टिक रिग्रेशन मॉडल का उपयोग करके उपस्थिति डेटा मॉडलिंग करके, और सामान्यीकृत रैखिक मॉडल (जीएलएम) का उपयोग करते हुए फोरेजिंग टाइम डेटा। लॉग लिंक फ़ंक्शन के साथ एक नकारात्मक द्विपद वितरण का उपयोग फोर्जिंग टाइम डेटा (वेल्श एट अल। 1996) को मॉडल करने के लिए किया गया था और मॉडल की पर्याप्तता को resi- दोहरे (मैक्कुलग एंड नेल्डर 1989) की परीक्षा द्वारा सत्यापित किया गया था। नमूना आकार के आधार पर सामान्यता के परीक्षण के लिए शापिरो-विल्क या कोलमोगोरोव-स्मिरनोव परीक्षण का उपयोग किया गया; सामान्यता का पालन करने के लिए विश्लेषण से पहले डेटा लॉग-ट्रांसफ़ॉर्म किए गए थे।

यदि वे द्विपद और नकारात्मक द्विपद त्रुटि वितरण मान लेते हैं, तो निश्चित रूप से उन्हें अवशिष्ट की सामान्यता के लिए जाँच नहीं करनी चाहिए?


2
ध्यान दें कि त्रुटियों को द्विपद रूप से वितरित नहीं किया गया है - प्रत्येक प्रतिक्रिया द्विपदीय रूप से आपके भविष्य के प्रश्नों के उत्तर के अनुसार संबंधित भविष्यवक्ता मानों द्वारा दिए गए प्रायिकता पैरामीटर के साथ वितरित की जाती है ।
Scortchi - को पुनः स्थापित मोनिका

3
सामान्य होने की आवश्यकता के मुकाबले द्विपद या नकारात्मक द्विपद प्रतिगमन में कुछ भी नहीं है। यदि यह प्रतिक्रिया है जो वे बदल देते हैं, तो यह अत्यधिक उल्टा हो सकता है; यह GLM को खराब कर देगा।
Glen_b -Reinstate मोनिका

1
यह आपके उद्धरण से स्पष्ट नहीं है कि वे वास्तव में सामान्यता के लिए परीक्षण कर रहे हैं (क्या आपको यकीन है कि यह अवशिष्ट है?) या वे किस विश्लेषण के लिए डेटा बदल रहे हैं (क्या आपको यकीन है कि यह GLM है?)।
Scortchi - को पुनः स्थापित मोनिका

मैंने बोली को थोड़ा बढ़ाया है। क्या कोई पुष्टि कर सकता है कि कागज के लेखकों ने जो किया वह गलत या सही था?
लूसियानो

मुझे डर है कि यह अभी भी बहुत स्पष्ट नहीं है - लेखकों से विस्तार से संपर्क करें कि उन्होंने विश्लेषण को कैसे अंजाम दिया अगर इसे कागज या अन्य संदर्भों में कहीं और नहीं समझाया गया है।
Scortchi - को पुनः स्थापित मोनिका

जवाबों:


16

एनबी ग्रेसियन (या पियर्सन) अवशिष्टों को एक गौसियन मॉडल को छोड़कर सामान्य वितरण की उम्मीद नहीं है। लॉजिस्टिक रिग्रेशन केस के लिए, जैसा कि @ स्टैट कहते हैं, वें अवलोकन के लिए अवशिष्ट अवशिष्ट द्वारा दिए गए हैंiyi

riD=2|log(1π^i)|

अगर औरyi=0

riD=2|log(π^i)|

अगर , जहां सज्जित बर्नौली संभावना है। जैसा कि प्रत्येक दो में से केवल एक मान ले सकता है, यह स्पष्ट है कि उनका वितरण सामान्य नहीं हो सकता है, यहां तक ​​कि एक सही ढंग से निर्दिष्ट मॉडल के लिए भी:yi=1πi^

#generate Bernoulli probabilities from true model
x <-rnorm(100)
p<-exp(x)/(1+exp(x))

#one replication per predictor value
n <- rep(1,100)
#simulate response
y <- rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial") -> mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

QQ प्लॉट n = 1

लेकिन अगर वें भविष्यवक्ता पैटर्न के लिए टिप्पणियों को हैं , और अवशिष्ट अवशिष्ट को परिभाषित किया जाता है ताकि इसे इकट्ठा किया जा सकेnii

riD=sgn(yiniπ^i)2[yilogyinπ^i+(niyi)logniyini(1π^i)]

(जहाँ अब 0 से तक की सफलताओं की गिनती है ) तब को का वितरण बड़ा हो जाता है जो सामान्यता को अधिक अनुमानित करता है:yinini

#many replications per predictor value
n <- rep(30,100)
#simulate response
y<-rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial")->mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

QQ प्लॉट n = 30

पॉसों या नकारात्मक द्विपद GLMs के लिए चीजें समान हैं: कम पूर्वानुमानित गणनाओं के लिए अवशिष्टों का वितरण असतत और तिरछा है, लेकिन एक सही ढंग से निर्दिष्ट मॉडल के तहत बड़ी गणनाओं के लिए सामान्यता को दर्शाता है।

यह सामान्य नहीं है, कम से कम जंगल की मेरी गर्दन में नहीं, अवशिष्ट सामान्यता का औपचारिक परीक्षण करने के लिए; यदि सामान्यता परीक्षण अनिवार्य रूप से बेकार है, जब आपका मॉडल सटीक सामान्यता मानता है, तो ऐसा नहीं होने पर एक किलाड़ी बेकार है। फिर भी, असंतृप्त मॉडल के लिए, ग्राफिकल अवशिष्ट डायग्नोस्टिक्स उपस्थिति और फिट की कमी की प्रकृति का आकलन करने के लिए उपयोगी होते हैं, प्रति पूर्वानुमान पैटर्न की प्रतिकृति की संख्या के आधार पर एक चुटकी या मुट्ठी भर नमक के साथ सामान्यता लेते हैं।


1

उन्होंने जो किया वह सही है! मैं आपको दोहरी जांच का संदर्भ दूंगा। रैखिक प्रतिगमन विश्लेषण, 5 वें संस्करण के परिचय में धारा 13.4.4 देखेंडगलस सी। मोंटगोमरी, एलिजाबेथ ए। पेक, जी। जेफ्री विनिंग द्वारा। विशेष रूप से, पृष्ठ ४६० पर उदाहरण देखें, जहां वे एक द्विपद चमक को फिट करते हैं और "देवाइसियन अवशिष्ट" की सामान्यता धारणा की दोहरी जांच करते हैं। जैसा कि पृष्ठ ४५, में उल्लेख किया गया है, यह इसलिए है क्योंकि "अवशिष्ट अवशिष्ट बहुत सामान्य अवशिष्ट के रूप में एक सामान्य सामान्य-सिद्धांत रैखिक प्रतिगमन मॉडल में व्यवहार करते हैं"। तो यह समझ में आता है अगर आप उन्हें सामान्य संभावना प्लॉट पैमाने पर और साथ ही फिट मानों पर प्लॉट करते हैं। उपरोक्त संदर्भ का पृष्ठ ४५६ देखें। उदाहरणों में उन्होंने पृष्ठ ४६० और ४६१ पर दिए हैं, न केवल द्विपद मामले के लिए, बल्कि पोइसन ग्लम और गामा के साथ (लिंक = लॉग) के लिए, उन्होंने अवशिष्ट अवशिष्टों की सामान्यता की जांच की है।
द्विपद मामले के लिए अवशिष्ट अवशिष्ट के रूप में परिभाषित किया गया है:

riD=2|ln(1πi^)|
अगर और अगर | अब आर में कुछ कोडिंग आपको यह दिखाने के लिए कि आप इसे कैसे प्राप्त कर सकते हैं:yi=0yi=1
riD=2|ln(πi^)|
yi=1
> attach(npk)

> #Fitting binomila glm
> fit.1=glm(P~yield,family=binomial(logit))
> 
> #Getting deviance residuals directly
> rd=residuals(fit.1,type = c("deviance"))
> rd
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 
> 
> #Estimated success probabilities
> pi.hat=fitted(fit.1)
> 
> #Obtaining deviance residuals directly
> rd.check=-sqrt(2*abs(log(1-pi.hat)))
> rd.check[P==1]=sqrt(2*abs(log(pi.hat[P==1])))
> rd.check
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 

पोइसन मामले के लिए भी यहां देखें ।


2
आपका उदाहरण एक अजीब विकल्प है। क्या आपने उन अवशिष्ट अवशिष्टों का एक PP या QQ प्लॉट बनाया; यदि हां, तो आपने क्या निष्कर्ष निकाला?
Scortchi - को पुनः स्थापित मोनिका

5
बिंदु इस मामले में अवशेषों की सामान्यता की जांच करने में कोई समझदारी नहीं है - वे स्पष्ट रूप से सामान्य रूप से वितरित नहीं किए जाते हैं, और न ही उन्हें होना चाहिए। यह केवल इसलिए है क्योंकि प्रत्येक भविष्यवक्ता पैटर्न के लिए टिप्पणियों की संख्या बढ़ जाती है कि अवशिष्ट (एक अवशिष्ट प्रति पूर्वानुमानकर्ता पैटर्न की गणना) का वितरण सामान्य को जाता है। इसी तरह एक पॉइसन या नकारात्मक द्विपद मॉडल के लिए - सामान्य सन्निकटन अच्छा होने के लिए बड़े-ईश की आवश्यकता होती है।
Scortchi - को पुनः स्थापित मोनिका

2
सवाल यह है कि सामान्यीकृत रैखिक मॉडल से अवशेषों को सामान्य रूप से वितरित किया जाना चाहिए। आपका उत्तर एक अयोग्य "हां" प्रतीत होता है (हालांकि आपके स्रोत निस्संदेह आवश्यक योग्यता देते हैं, न कि हर पाठक उनकी जांच करेगा)। फिर आप एक उदाहरण देते हैं जिसमें अवशिष्टों के सामान्य रूप से वितरित होने की उम्मीद करने का कोई कारण नहीं है , भले ही मॉडल सही ढंग से निर्दिष्ट किया गया हो: एक अपरिपक्व पाठक यह मान लेगा कि उन्हें होना चाहिए और जैसा कि वे स्पष्ट रूप से नहीं हैं, यह है इसलिए बच गया (हालांकि आप ... का परीक्षण करके मॉडल गलत विनिर्देश का पता लगाने का एक उदाहरण
Scortchi - को पुनः स्थापित मोनिका

2
... यह नहीं कहा है)। इसलिए मुझे लगता है कि उत्तर के लिए उपयोगी होने के लिए बहुत स्पष्टीकरण की आवश्यकता है।
Scortchi - को पुनः स्थापित मोनिका

2
IMO @ Scortchi की टिप्पणियां यहाँ उचित हैं। मोंटगोमरी की किताब को मैं देख सकता हूं कि गूगल की किताबों के पूर्वावलोकन में वे क्यूक्यू प्लॉट बनाते हैं, लेकिन मूल पोस्टर द्वारा उल्लिखित वास्तविक सामान्यता परीक्षण नहीं करते हैं। निश्चित रूप से QQ प्लॉट बनाना एक नैदानिक ​​परीक्षण के रूप में उचित है, लेकिन बहुत अधिक यथार्थवादी परिस्थितियों में यहां तक ​​कि विचलन को भी हल करता है। सामान्य नहीं होगा।
एंडी डब्ल्यू
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.