जीएलएम में अर्ध-पोइसन को नकारात्मक द्विपद के एक विशेष मामले के रूप में क्यों नहीं माना जाता है?


21

मैं सामान्यीकृत रैखिक मॉडल को गिनती डेटा के कुछ सेटों में फिट करने की कोशिश कर रहा हूं जो कि अतिविशिष्ट नहीं हो सकते हैं। EVON और विचरण के साथ दो विहित वितरण जो यहां लागू होते हैं, पोइसन और नकारात्मक द्विपद (नेगबिन) हैंμ

वीआरपी=μ

वीआरएनबी=μ+μ2θ

जिसे क्रमशः R उपयोग glm(..,family=poisson)और glm.nb(...), में फिट किया जा सकता है। quasipoissonपरिवार भी है , जो मेरी समझ में एक ही ईवी और भिन्नता के साथ एक समायोजित पॉसों है

वीआरक्यूपी=φμ ,

पोइसन और नेगबिन के बीच में कहीं गिरना। कैसिपोइसन परिवार के साथ मुख्य समस्या यह है कि इसके लिए कोई संगत संभावना नहीं है, और इसलिए बहुत उपयोगी सांख्यिकीय परीक्षण और फिट उपाय (एआईसी, एलआर वगैरह) उपलब्ध नहीं हैं।

यदि आप QP और Negbin संस्करण की तुलना करते हैं, तो आप ध्यान दे सकते हैं कि आप उन्हें डालकर बराबरी कर सकते हैं । इस तर्क को जारी रखते हुए, आप नेसिपोनिसन वितरण को नेगबिन के विशेष मामले के रूप में व्यक्त करने का प्रयास कर सकते हैं:φ=1+μθ

क्यूपी(μ,φ)=एनबी(μ,θ=μφ-1) ,

यानी साथ एक नेगिनिन एक रैखिक रूप से पर निर्भर करता है । मैंने उपरोक्त फॉर्मूले के अनुसार संख्याओं का एक यादृच्छिक क्रम उत्पन्न करके और इसके साथ फिटिंग करके इस विचार को सत्यापित करने का प्रयास किया :θμglm

#fix parameters

phi = 3
a = 1/50
b = 3
x = 1:100

#generating points according to an exp-linear curve
#this way the default log-link recovers the same parameters for comparison

mu = exp(a*x+b) 
y = rnbinom(n = length(mu), mu = mu, size = mu/(phi-1)) #random negbin generator

#fit a generalized linear model y = f(x)  
glmQP = glm(y~x, family=quasipoisson) #quasipoisson
glmNB = glm.nb(y~x) #negative binomial

> glmQP

Call:  glm(formula = y ~ x, family = quasipoisson)

Coefficients:
(Intercept)            x  
    3.11257      0.01854  
(Dispersion parameter for quasipoisson family taken to be 3.613573)

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:      2097 
Residual Deviance: 356.8    AIC: NA

> glmNB

Call:  glm.nb(formula = y ~ x, init.theta = 23.36389741, link = log)

Coefficients:
(Intercept)            x  
    3.10182      0.01873  

Degrees of Freedom: 99 Total (i.e. Null);  98 Residual
Null Deviance:      578.1 
Residual Deviance: 107.8    AIC: 824.7

दोनों फिट पैरामीटर को पुन: पेश करते हैं, और कैसिपोइसन लिए एक 'उचित' अनुमान देता है । अब हम कैसिपोइसन के लिए AIC मान को भी परिभाषित कर सकते हैं:φ

df = 3 # three model parameters: a,b, and phi
phi.fit = 3.613573 #fitted phi value copied from summary(glmQP)
mu.fit = glmQP$fitted.values 

#dnbinom = negbin density, log=T returns log probabilities
AIC = 2*df - 2*sum(dnbinom(y, mu=mu.fit, size = mu.fit/(phi.fit - 1), log=T))
> AIC
[1] 819.329

(मुझे मैन्युअल रूप से फिट किए गए मान को कॉपी करना था , क्योंकि मैं इसे ऑब्जेक्ट में नहीं पा सकता था )φsummary(glmQP)glmQP

मैंसीक्यूपी<मैंसीएनबीमैंसीक्यूपी

  1. क्या यह विचार समझ में आता है? क्या मेरा सत्यापन परिपत्र तर्क पर आधारित है?
  2. किसी के लिए भी मुख्य प्रश्न यह है कि किसी चीज़ को 'इनवॉइस' किया जाए जो एक अच्छी तरह से स्थापित विषय से गायब लगता है: यदि यह विचार समझ में आता है, तो इसे पहले से ही क्यों लागू नहीं किया गया है glm?

संपादित करें: आंकड़ा जोड़ा गया

glm फिट और + -1 सिग्मा बैंड


1
(+1) वेलिडेट पार करने के लिए आपका स्वागत है! और एक उत्कृष्ट प्रश्न के लिए धन्यवाद (हालांकि कोड में कुछ टिप्पणियां उन लोगों के लिए अच्छी हो सकती हैं जो आर का उपयोग नहीं करते हैं)। मुझे लगता है कि आपने NB1 मॉडल का फिर से आविष्कार किया होगा (हालांकि मैंने अभी तक इसका विस्तार से पालन नहीं किया है)। यह भी ध्यान दें कि कोई अर्ध-पॉइसन वितरण नहीं है - यही कारण है कि इसकी कोई संभावना या एआईसी नहीं है - यह सिर्फ फिटिंग साधनों और भिन्नताओं का एक तरीका है।
Scortchi - को पुनः स्थापित मोनिका

2
धन्यवाद! मैंने इस बीच कुछ टिप्पणियां जोड़ी हैं, मुझे उम्मीद है कि इससे चीजें साफ होंगी। मैं समझता हूं कि अर्ध-पॉइसन वितरण प्रति से मौजूद नहीं है - मैं वास्तव में यह पता लगाने की कोशिश कर रहा था कि क्यूपी बिल्कुल भी एक चीज है, यह देखते हुए कि एनबी 1 वितरण मौजूद है और इसमें क्यूपी की अर्ध-समस्याएं नहीं हैं (एक स्पष्ट समाधान के लिए जवाब देखें)।
user28400

1
एक्स~POIs(λ)Y=एक्सYμ=λμ10,,2,

1
@Glen_b: क्या लोग वास्तव में कॉल करते हैं कि अर्ध-पोइसन? किसी भी मामले में यह एक अच्छा चित्रण है - जब आप "quasiPoisson" मॉडल का उपयोग करते हैं, तो आप वास्तव में उस वितरण, या NB1, या किसी भी अन्य को नहीं मान रहे हैं, बस माध्य और विचरण के बीच एक संबंध है जो गुणांक और आपके मानक त्रुटियों का अनुमान लगाता है बेहतर के रूप में नमूना बड़ा हो जाता है।
Scortchi - को पुनः स्थापित मोनिका

1
@ स्कोर्टची यह एकमात्र घातीय पारिवारिक वितरण है जो अर्ध-पॉइसन की मान्यताओं को संतुष्ट करता है, इसलिए - इस तरह के अवसर पर मैंने लोगों को देखा है कि यह वितरण है कि धारणा का अर्थ है। बेशक जब लोग इसका उपयोग करते हैं, तो वे लगभग * कभी भी यह इरादा नहीं रखते हैं कि उनका डेटा उस विशिष्ट वितरण से है - यह सिर्फ एक मोटे विवरण के रूप में है कि उनका मतलब और भिन्नता कैसे संबंधित है। (यह कुछ बीमा अनुप्रयोगों में बहुत सरल मान्यताओं के तहत समझ में आ सकता है - कुल दावों की लागत, जहां दावों की संख्या
पोइसन है

जवाबों:


24

अर्ध-पोइसन एक पूर्ण अधिकतम संभावना (एमएल) मॉडल नहीं है, लेकिन एक अर्ध-एमएल मॉडल है। आप सिर्फ गुणांक का अनुमान लगाने के लिए पोइसन मॉडल से अनुमानित फ़ंक्शन (या स्कोर फ़ंक्शन) का उपयोग करते हैं, और फिर एक मानक मानक फ़ंक्शन को प्राप्त करने के लिए उपयुक्त मानक त्रुटियों (या बल्कि एक पूर्ण सहसंयोजक मैट्रिक्स) का उपयोग करते हैं। इसलिए, glm()आपूर्ति नहीं करता है और logLik()या AIC()यहाँ आदि।

sizeθमैंμमैं

अगर कोई regressors (सिर्फ एक अवरोधन) NB1 parametrization और NB2 parametrization द्वारा नियोजित कर रहे हैं MASSके glm.nb()मेल खाना। रजिस्टरों के साथ वे भिन्न होते हैं। सांख्यिकीय साहित्य में NB2 पैराट्राइजेशन अधिक बार उपयोग किया जाता है लेकिन कुछ सॉफ्टवेयर पैकेज NB1 संस्करण भी प्रदान करते हैं। आर में उदाहरण के लिए, आप gamlssपैकेज का उपयोग करने के लिए कर सकते हैं gamlss(y ~ x, family = NBII)। ध्यान दें कि NB2 पैराट्राइज़ेशन के लिए और NB1 के लिए कुछ हद तक भ्रमित gamlssकरता है । (लेकिन शब्दजाल और शब्दावली सभी समुदायों में एकीकृत नहीं है।)NBINBII

फिर, आप पूछ सकते हैं, निश्चित रूप से, अगर एनबी 1 उपलब्ध है, तो अर्ध-पॉइसन का उपयोग क्यों करें? अभी भी एक सूक्ष्म अंतर है: पूर्व अर्ध-एमएल का उपयोग करता है और स्क्वेयर्ड डिविज़न (या पियर्सन) अवशिष्टों से फैलाव से अनुमान प्राप्त करता है। उत्तरार्द्ध पूर्ण एमएल का उपयोग करता है। व्यवहार में, अंतर अक्सर बड़ा नहीं होता है, लेकिन मॉडल का उपयोग करने के लिए प्रेरणाएं थोड़ी भिन्न होती हैं।


1
धन्यवाद! बहुत उपयोगी उत्तर, मैं अभी प्रयोग कर रहा हूं gamlssऔर ऐसा लग रहा है कि यह वास्तव में मेरी जरूरत है। क्या आप पूर्ण एमएल बनाम अर्ध-संभावना का उपयोग करने के लिए प्रेरणाओं पर विस्तार कर सकते हैं?
user28400

2
आप कम मान लेते हैं: आप बस (1) अपेक्षा और रजिस्टरों के बीच एक लॉग-रैखिक संबंध (2) विचरण और अपेक्षा के बीच एक रैखिक संबंध मानते हैं। शेष संभावना पूरी तरह से अनिर्दिष्ट है। (2) के विकल्प के रूप में, चिकित्सक कभी-कभी तथाकथित "मजबूत" सैंडविच मानक त्रुटियों को नियोजित करते हैं जो अधिक सामान्य विषमलैंगिकता पैटर्न के लिए अनुमति देगा। बेशक, एक सैंडविच मानक त्रुटियों के साथ NB1 को भी नियोजित कर सकता है ... कुछ और टिप्पणियां हमारे में हैं vignette("countreg", package = "pscl")
अचिम जाइलिस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.