यह कैसे संभव है कि पॉइसन जीएलएम गैर-पूर्णांक संख्याओं को स्वीकार करे?


17

मैं वास्तव में इस तथ्य से स्तब्ध हूं कि पोइसन जीएलएम गैर-पूर्णांक संख्या स्वीकार करता है! देखो:

डेटा (सामग्री data.txt):

1   2001    0.25  1
1   2002    0.5   1
1   2003    1     1
2   2001    0.25  1
2   2002    0.5   1
2   2003    1     1

आर स्क्रिप्ट:

t        <- read.table("data.txt")
names(t) <- c('site', 'year', 'count', 'weight')
tm       <- glm(count ~ 0 + as.factor(site) + as.factor(year), data = t, 
                family = "quasipoisson")  # also works with family="poisson"
years    <- 2001:2003
plot(years, exp(c(0, tail(coef(tm), length(years)-1))), type = "l")

परिणामी वर्ष सूचकांक "अपेक्षित" है, अर्थात 1-2-4वर्षों में 2001-2003

लेकिन यह कैसे संभव है कि पॉइसन जीएलएम गैर-पूर्णांक संख्या लेता है? Poisson वितरण हमेशा पूर्णांक ही रहा है!


2
क्या आप स्पष्ट कर सकते हैं कि आप क्या जानना चाहते हैं? गैर-पूर्णांक के साथ फिटिंग एल्गोरिथ्म कैसे व्यवहार करता है? या R यह जाँच क्यों नहीं करता है कि प्रतिक्रिया पूर्णांक है? या जब गैर-पूर्णांक आपूर्ति किए जाते हैं तो परिणाम में कुछ भी गलत है या नहीं?
मोमो

@ मोमो, हाँ, ये सभी सवाल दिलचस्प हैं!
उत्सुक

2
कृपया यह दर्शाने के लिए अपने प्रश्न को संपादित करें। आपको इस तरह से एक अच्छा जवाब मिलने की अधिक संभावना है।
मोमो

8
ऐसा नहीं है कि यह वास्तव में मायने रखता है, क्योंकि यह सच है family="poisson" लेकिन ध्यान दें कि आपका उदाहरण एक पॉइसन GLM नहीं है, जैसा कि आप quasipoissonपरिवार का उपयोग कर रहे हैं , जो केवल मतलब और विचरण के बीच के रिश्ते पर निर्भर करता है, इसलिए इसमें मामला, गैर-पूर्णांक संख्या लेने के बारे में कोई आश्चर्य नहीं होना चाहिए।
हारून ने स्टैक ओवरफ्लो

1
यहाँ हैं कुछ संदर्भ कि यह क्यों समझ में आता है।
दिमित्री वी। मास्टरोव

जवाबों:


17

बेशक आप सही हैं कि पॉइसन वितरण तकनीकी रूप से केवल पूर्णांकों के लिए परिभाषित किया गया है। हालांकि, सांख्यिकीय मॉडलिंग अच्छे सन्निकटन की कला है (" सभी मॉडल गलत हैं "), और कई बार ऐसा होता है जब यह गैर-पूर्णांक डेटा का इलाज करने के लिए समझ में आता है, हालांकि यह [लगभग] पॉइसन था।

उदाहरण के लिए, यदि आप एक ही गणना डेटा को रिकॉर्ड करने के लिए दो पर्यवेक्षकों को भेजते हैं, तो ऐसा हो सकता है कि दो पर्यवेक्षक हमेशा गिनती पर सहमत न हों - कोई कह सकता है कि कुछ 3 बार हुआ जबकि दूसरे ने कहा कि यह 4 बार हुआ। यह अच्छा है कि आपके पॉसन गुणांक को फिट करते समय 3.5 का उपयोग करने का विकल्प है, बजाय 3 और 4 के बीच चयन करने के।

कम्प्यूटेशनल रूप से, पोइसन में फैक्टरियल गैर-पूर्णांक के साथ काम करना मुश्किल बना सकता है, लेकिन ए फैक्टोरियल का निरंतर सामान्यीकरण मौजूद है। इसके अलावा, पोइसन के लिए अधिकतम संभावना का अनुमान लगाने से भी फैक्टरियल फ़ंक्शन शामिल नहीं होता है, एक बार जब आप अभिव्यक्ति को सरल करते हैं


15

yx

EYi=expβTxi
VarYi=EYi
β
inxi(yiexpβTxi)=0
बेशक स्थिरता किसी भी परीक्षण या विश्वास अंतराल की वैधता का मतलब नहीं है; संभावना निर्दिष्ट नहीं की गई है।

यह हमारे द्वारा स्कूल में सीखे गए पद्धति-पलों के दृष्टिकोण से होता है, और सामान्यीकृत समीकरणों की ओर जाता है

@ हारून ने बताया कि आप वास्तव में अपने कोड में एक अर्ध-पोइसन फिट का उपयोग कर रहे हैं। इसका मतलब है कि विचरण मतलब के लिए आनुपातिक है

VarYi=ϕEYi

ϕ

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.