एक नकारात्मक द्विपद प्रतिगमन से पियर्सन के अवशिष्ट एक पोइसन प्रतिगमन से छोटे क्यों हैं?


9

मेरे पास ये डेटा हैं:

set.seed(1)
predictor  <- rnorm(20)
set.seed(1)
counts <- c(sample(1:1000, 20))
df <- data.frame(counts, predictor)

मैंने एक पोइसन रिग्रेशन चलाया

poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson")

और एक नकारात्मक द्विपद प्रतिगमन:

require(MASS)
nb_counts <- glm.nb(counts ~ predictor, data = df)

तब मैंने पियर्सन प्रतिगमन के फैलाव आंकड़ों की गणना की:

sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts)

# [1] 145.4905

और नकारात्मक द्विपद प्रतिगमन:

sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts)

# [1] 0.7650289

क्या कोई व्याख्या का उपयोग किए बिना व्याख्या करने में सक्षम है, क्यों नकारात्मक द्विपद प्रतिगमन के लिए फैलाव आँकड़ा काफी हद तक पोइसन प्रतिगमन के लिए फैलाव आँकड़ा से छोटा है?

जवाबों:


9

यह बल्कि सीधा है, लेकिन "समीकरणों का उपयोग किए बिना" एक पर्याप्त बाधा है। मैं इसे शब्दों में समझा सकता हूं, लेकिन वे शब्द जरूरी समीकरणों को दर्पण करेंगे। मुझे आशा है कि आपके लिए कुछ मूल्य अभी भी स्वीकार्य होंगे। (प्रासंगिक समीकरण कठिन नहीं हैं।)

कई प्रकार के अवशेष हैं। कच्चे अवशेष केवल मनाया प्रतिक्रिया मूल्यों (आपके मामले में counts) और मॉडल की अनुमानित प्रतिक्रिया मूल्यों के बीच अंतर हैं। पियर्सन अवशिष्ट उन मानक विचलन द्वारा विभाजित करते हैं (सामान्यीकृत रैखिक मॉडल के विशेष संस्करण के लिए विचरण समारोह का वर्गमूल जिसे आप उपयोग कर रहे हैं)।

पॉइसन वितरण से जुड़े मानक विचलन नकारात्मक द्विपद की तुलना में छोटा है । इस प्रकार, जब आप एक बड़े भाजक से विभाजित करते हैं, तो भागफल छोटा होता है।

इसके अलावा, नकारात्मक द्विपद आपके मामले के लिए अधिक उपयुक्त है, क्योंकि आपके countsजनसंख्या में वर्दी के रूप में वितरित किया जाएगा। यानी उनका विचरण उनके माध्य के बराबर नहीं होगा।


4
हालांकि ओपी एक गैर-गणितीय स्पष्टीकरण के लिए पूछता है, फिर भी इस उत्तर के लिए गणितीय (या कुछ समान रूप से कठोर और स्पष्ट) औचित्य देखना अच्छा होगा। प्रश्न को पढ़ने के बाद मेरी अंतर्ज्ञान यह था कि "क्योंकि पोइसन एनबी और एनबी का एक विशेष मामला है (सीमित), और अधिक पैरामीटर हैं, फिटिंग में अधिक लचीलापन है, इसलिए निश्चित रूप से अवशिष्ट के किसी भी उचित उपाय को जगह में नहीं बढ़ाना चाहिए। एनबी जीएलएम द्वारा एक पॉइज़न जीएलएम। " मैं सोच रहा हूं कि क्या वास्तव में ऐसा अंतर्ज्ञान सही था।
whuber

अगर एक्स~प्वासों(λ), [एक्स]=वी[एक्स]=λ। अगरएक्स~NegBin(आर,पी), [एक्स]=पीआर/(1-पी) तथा वी[एक्स]=पीआर/(1-पी)2। तो एक पॉइसन विचरण माध्य के बराबर है, एक नेगबिन विचरण माध्य से बड़ा है (पी<1(1-पी)2<(1-पी))। यही कारण है कि "पोइसन वितरण से जुड़ा मानक विचलन नकारात्मक द्विपद की तुलना में छोटा है।"
सर्जियो

3
@ शेरगियो, इस मामले की क्रूरता, हालांकि, पोइसन मॉडल में हम अनुमान के साथ काम कर रहे हैं λ^ बजाय λ स्वयं और एनबी मॉडल में हम इसी तरह दो अनुमानों के साथ काम कर रहे हैं आर^ तथा पी^। आपकी तुलना इसलिए सीधे लागू नहीं होती है। वास्तव में दोनों मॉडलों में एमएलई के लिए सूत्र लिखने के बिना, यह बिल्कुल स्पष्ट नहीं है कि उन अनुमानों के सेट के बीच क्या संबंध होना चाहिए। इसके अलावा, पियर्सन अवशिष्ट एक अनुपात है और संस्करण के बारे में तर्क केवल हर को संबोधित करता है, जो कहानी का सिर्फ आधा हिस्सा है।
whuber

MLE अनुमान संगत हैं। समस्या यह है कि जब, जैसा कि गंग कहते हैं, "जनसंख्या में गणवेश को एक समान के रूप में वितरित किया जाएगा। अर्थात, उनका विचरण उनके माध्य के बराबर नहीं होगा", आप कभी भी अनुमानित पोइसन विचरण को अनुमान से बड़ा नहीं कर पाएंगे। पॉइसन का मतलब है, भले ही आपके अनुमान निष्पक्ष और सुसंगत हों। यह मिसकैरेज की समस्या है।
सर्जियो

5

पॉसों मॉडल के लिए, यदि समाप्ति के लिए मैंवें अवलोकन Yमैं है μमैं इसका विचरण है μमैं, और पियर्सन अवशिष्ट इसलिए

yमैं-μ^मैंμ^मैं

कहाँ पे μ^मतलब का अनुमान है। एमएएसएस में उपयोग किए जाने वाले नकारात्मक द्विपद मॉडल के पैरामीरिजेशन को यहां समझाया गया है । यदि के लिए समाप्तिमैंवें अवलोकन Yमैं है μमैं इसका विचरण है μमैं+μ2θ, और पियर्सन अवशिष्ट इसलिए

yमैं-μ~मैंμ~मैं+μ~'2θ

कहाँ पे μ~मतलब का अनुमान है। का मान जितना छोटा होता हैθ- यानी अधिक अतिरिक्त-पॉइसन विचरण-, इसके पोइसन समकक्ष की तुलना में छोटे अवशिष्ट। [लेकिन जैसा कि @whuber ने बताया है, साधनों का अनुमान समान नहीं है,μ^μ~, क्योंकि अनुमान प्रक्रिया उनके मानने वाले विचरण के अनुसार टिप्पणियों को मापती है। यदि आप के लिए प्रतिकृति माप बनाने थेमैंवें भविष्यवक्ता पैटर्न, वे करीब आ जाएंगे, और सामान्य तौर पर एक पैरामीटर को जोड़ने से सभी टिप्पणियों के दौरान बेहतर फिट होना चाहिए, हालांकि मुझे नहीं पता कि इस कठोरता को कैसे प्रदर्शित किया जाए। पोइज़न मॉडल को धारण करने वाली सभी समान जनसंख्या, जो आप अनुमान लगा रहे हैं वह बड़ी है, इसलिए इसे आश्चर्य नहीं होना चाहिए।]


1
कुछ समीकरणों को पेश करने के लिए धन्यवाद। लेकिन हैंμमैंदो मॉडल में समान मान रखने वाले हैं? (मुझे ऐसा नहीं लगता।) यदि नहीं, तो फिर दो पियरसन अवशिष्टों की तुलना करना कैसे संभव है?
whuber

@whuber इस मामले में, यह पता चला है कि दोनों मॉडलों के लिए फिट किए गए मूल्य लगभग समान हैं। आखिरकार, "सच" मॉडल में वास्तव में सिर्फ एक अवरोधन होता है और मूल रूप से इसका मतलब मॉडलिंग है क्योंकि सिमुलेशन में x और Y के बीच कोई संबंध नहीं है।
jsk

1
@jsk हां, मैंने डेटा को देखा है और कोड चलाया है। (BTW, डेटा को बदलना और दो मॉडलों के लिए अनिवार्य रूप से एक ही फैलाव आँकड़ा प्राप्त करना संभव है ।) काश, आपकी बात, जो मान्य है, अभी भी विशिष्ट प्रश्न का निपटारा नहीं करती है और न ही (निहित) सामान्य प्रश्न को संबोधित करती है। पोइसन अवशिष्टों की तुलना एनबी अवशिष्टों से करना, क्योंकि अनुमानित रूपांतर भी लगभग समान हो सकते हैं। वर्तमान उत्तर के बारे में एक संभावित भ्रमित पहलू प्रतीक का उपयोग है "μमैं"क्या (सिद्धांत रूप में) हो सकता है उल्लेख करने के लिए अलग ही डेटा के दो मॉडल में अनुमान।
whuber

1
@whuber वास्तव में, आपके पास इसके उपयोग के बारे में मान्य बिंदु हैं μमैं। दिलचस्प बात यह है कि मैं डेटा का अनुकरण करने का एक तरीका नहीं खोज पा रहा हूं जिसके परिणामस्वरूप एनबी के लिए पॉइज़न कम फैलाव होगा। शायद यह संभव नहीं है? मैं मानता हूं कि यह समझदारी का काम करता है। जब आप पहचान के अलावा लिंक फ़ंक्शन के साथ एक चमक है, तो मील के लिए बंद फार्म समाधान मौजूद नहीं है, क्योंकि यह साबित करना आसान नहीं है। लेकिन हां, दो फैलाव आंकड़ों को बहुत समान बनाना आसान है।
jsk

1
@jsk - संदेह करने के लिए एक सैद्धांतिक तर्क है कि एक एनबी मॉडल पॉइसन की तुलना में हमेशा बेहतर होगा, यह है कि आप एनबी को एक पॉइसन-गामा यौगिक वितरण के रूप में लिख सकते हैं। मतलब आपके पास है(yमैं|λ,vमैं,आर)~पीमैंरोंरोंn(λvमैं) और फिर (vमैं|λ,आर)~जी(आर,आर) एक नकारात्मक द्विपद मॉडल देता है (yमैं|λ,आर)~एनबी(आर,λआर+λ)। अब उन के अलावाvमैं पैरामीटर मॉडल को अनुमानित मूल्य को मनाया मान के करीब बनाने की अनुमति देता है (जब yमैं>λ तुम देखोगे vमैं>1, अवशिष्ट को कम करना।)
संभाव्यता
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.