यह कैसे संभव है कि पॉइसन जीएलएम गैर-पूर्णांक संख्याओं को स्वीकार करे?

मैं वास्तव में इस तथ्य से स्तब्ध हूं कि पोइसन जीएलएम गैर-पूर्णांक संख्या स्वीकार करता है! देखो:

डेटा (सामग्री data.txt):

1   2001    0.25  1
1   2002    0.5   1
1   2003    1     1
2   2001    0.25  1
2   2002    0.5   1
2   2003    1     1

आर स्क्रिप्ट:

t        <- read.table("data.txt")
names(t) <- c('site', 'year', 'count', 'weight')
tm       <- glm(count ~ 0 + as.factor(site) + as.factor(year), data = t, 
                family = "quasipoisson")  # also works with family="poisson"
years    <- 2001:2003
plot(years, exp(c(0, tail(coef(tm), length(years)-1))), type = "l")

परिणामी वर्ष सूचकांक "अपेक्षित" है, अर्थात 1-2-4वर्षों में 2001-2003।

लेकिन यह कैसे संभव है कि पॉइसन जीएलएम गैर-पूर्णांक संख्या लेता है? Poisson वितरण हमेशा पूर्णांक ही रहा है!

r generalized-linear-model poisson-distribution poisson-regression

— जिज्ञासु
स्रोत

क्या आप स्पष्ट कर सकते हैं कि आप क्या जानना चाहते हैं? गैर-पूर्णांक के साथ फिटिंग एल्गोरिथ्म कैसे व्यवहार करता है? या R यह जाँच क्यों नहीं करता है कि प्रतिक्रिया पूर्णांक है? या जब गैर-पूर्णांक आपूर्ति किए जाते हैं तो परिणाम में कुछ भी गलत है या नहीं?

— मोमो

@ मोमो, हाँ, ये सभी सवाल दिलचस्प हैं!

— उत्सुक

कृपया यह दर्शाने के लिए अपने प्रश्न को संपादित करें। आपको इस तरह से एक अच्छा जवाब मिलने की अधिक संभावना है।

— मोमो

ऐसा नहीं है कि यह वास्तव में मायने रखता है, क्योंकि यह सच है family="poisson" लेकिन ध्यान दें कि आपका उदाहरण एक पॉइसन GLM नहीं है, जैसा कि आप quasipoissonपरिवार का उपयोग कर रहे हैं , जो केवल मतलब और विचरण के बीच के रिश्ते पर निर्भर करता है, इसलिए इसमें मामला, गैर-पूर्णांक संख्या लेने के बारे में कोई आश्चर्य नहीं होना चाहिए।

— हारून ने स्टैक ओवरफ्लो

यहाँ हैं कुछ संदर्भ कि यह क्यों समझ में आता है।

— दिमित्री वी। मास्टरोव

जवाबों:

बेशक आप सही हैं कि पॉइसन वितरण तकनीकी रूप से केवल पूर्णांकों के लिए परिभाषित किया गया है। हालांकि, सांख्यिकीय मॉडलिंग अच्छे सन्निकटन की कला है (" सभी मॉडल गलत हैं "), और कई बार ऐसा होता है जब यह गैर-पूर्णांक डेटा का इलाज करने के लिए समझ में आता है, हालांकि यह [लगभग] पॉइसन था।

उदाहरण के लिए, यदि आप एक ही गणना डेटा को रिकॉर्ड करने के लिए दो पर्यवेक्षकों को भेजते हैं, तो ऐसा हो सकता है कि दो पर्यवेक्षक हमेशा गिनती पर सहमत न हों - कोई कह सकता है कि कुछ 3 बार हुआ जबकि दूसरे ने कहा कि यह 4 बार हुआ। यह अच्छा है कि आपके पॉसन गुणांक को फिट करते समय 3.5 का उपयोग करने का विकल्प है, बजाय 3 और 4 के बीच चयन करने के।

कम्प्यूटेशनल रूप से, पोइसन में फैक्टरियल गैर-पूर्णांक के साथ काम करना मुश्किल बना सकता है, लेकिन ए फैक्टोरियल का निरंतर सामान्यीकरण मौजूद है। इसके अलावा, पोइसन के लिए अधिकतम संभावना का अनुमान लगाने से भी फैक्टरियल फ़ंक्शन शामिल नहीं होता है, एक बार जब आप अभिव्यक्ति को सरल करते हैं ।

— zkurtz
स्रोत

$y$ $\renewcommand{\vec}[1]{\boldsymbol{#1}}\vec{x}$

E Y_{i} = \exp β^{T} x_{i}

$\operatorname{E}Y_i=\exp{\vec\beta^{\mathrm{T}}\vec{x}_i}$

Var Y_{i} = E Y_{i}

$\operatorname{Var}Y_i=\operatorname{E}Y_i$

β

$\vec\beta$

\sum_{i}^{n} x_{i} (y_{i} - \exp β^{T} x_{i}) = 0

$\sum_i^n{\vec{x}_i\left(y_i-\exp{\vec\beta^{\mathrm{T}}\vec{x}_i}\right)}=0$ बेशक स्थिरता किसी भी परीक्षण या विश्वास अंतराल की वैधता का मतलब नहीं है; संभावना निर्दिष्ट नहीं की गई है।

यह हमारे द्वारा स्कूल में सीखे गए पद्धति-पलों के दृष्टिकोण से होता है, और सामान्यीकृत समीकरणों की ओर जाता है ।

@ हारून ने बताया कि आप वास्तव में अपने कोड में एक अर्ध-पोइसन फिट का उपयोग कर रहे हैं। इसका मतलब है कि विचरण मतलब के लिए आनुपातिक है

Var Y_{i} = ϕ E Y_{i}

$\operatorname{Var}Y_i=\phi\operatorname{E}Y_i$

$\phi$

— Scortchi - मोनिका को बहाल करें
स्रोत