अगर पोइसन वितरण से नमूने लिए गए हैं तो मैं कैसे परीक्षण कर सकता हूं?


41

मुझे सामान्यता परीक्षणों का पता है, लेकिन मैं "पॉइसन-नेस" का परीक्षण कैसे करूँ?

मेरे पास ~ 1000 गैर-नकारात्मक पूर्णांक का नमूना है, जो मुझे लगता है कि एक पॉइसन वितरण से लिया गया है, और मैं इसका परीक्षण करना चाहूंगा।

जवाबों:


18

सबसे पहले मेरी सलाह है कि आप डेटा के समान ही एक पॉइसन वितरण की कोशिश करने से बचना चाहिए। मेरा सुझाव है कि आपको पहले एक सिद्धांत बनाना चाहिए कि पोइसन वितरण को किसी विशेष डेटासेट या घटना के लिए क्यों फिट होना चाहिए।

एक बार जब आप इसे स्थापित कर लेते हैं, तो अगला प्रश्न यह होता है कि वितरण समरूप है या नहीं। इसका मतलब यह है कि क्या डेटा के सभी हिस्सों को समान पॉइसन वितरण द्वारा नियंत्रित किया जाता है या समय या स्थान जैसे कुछ पहलुओं के आधार पर इसमें भिन्नता है। एक बार जब आप इन पहलुओं के बारे में आश्वस्त हो जाते हैं, तो निम्नलिखित तीन परीक्षणों को आज़माएँ:

  1. एक वर्ग वर्ग चर का उपयोग कर संभावना अनुपात परीक्षण
  2. सशर्त ची-वर्ग सांख्यिकीय का उपयोग; जिसे पॉइसन फैलाव परीक्षण या विचरण परीक्षण भी कहा जाता है
  3. न्यूमैन-स्कॉट स्टेटिस्टिक का उपयोग, जो कि पियर्सन चर के परिवर्तन को स्थिर करने पर आधारित है

इन के लिए खोज और आप उन्हें आसानी से नेट पर मिल जाएगा।


3
"क्या वितरण सजातीय है या नहीं ... एक बार जब आप इन पहलुओं के बारे में आश्वस्त हो जाते हैं" तो क्या आप इसे निर्धारित करने के लिए थोड़ा टिप्पणी कर सकते हैं?
मतलब-टू-अर्थ

13

यहाँ R कमांड का एक क्रम है जो सहायक हो सकता है। यदि आप कोई गलती करते हैं तो टिप्पणी या संपादन के लिए स्वतंत्र महसूस करें।

set.seed(1)
x.poi<-rpois(n=200,lambda=2.5) # a vector of random variables from the Poisson distr.

hist(x.poi,main="Poisson distribution")

lambda.est <- mean(x.poi) ## estimate of parameter lambda
(tab.os<-table(x.poi)) ## table with empirical frequencies


freq.os<-vector()
for(i in 1: length(tab.os)) freq.os[i]<-tab.os[[i]]  ## vector of emprical frequencies

freq.ex<-(dpois(0:max(x.poi),lambda=lambda.est)*200) ## vector of fitted (expected) frequencies

acc <- mean(abs(freq.os-trunc(freq.ex))) ## absolute goodness of fit index acc
acc/mean(freq.os)*100 ## relative (percent) goodness of fit index

h <- hist(x.poi ,breaks=length(tab.os))
xhist <- c(min(h$breaks),h$breaks)
yhist <- c(0,h$density,0)
xfit <- min(x.poi):max(x.poi)
yfit <- dpois(xfit,lambda=lambda.est)
plot(xhist,yhist,type="s",ylim=c(0,max(yhist,yfit)), main="Poison density and histogram")
lines(xfit,yfit, col="red")

#Perform the chi-square goodness of fit test 
#In case of count data we can use goodfit() included in vcd package
library(vcd) ## loading vcd package
gf <- goodfit(x.poi,type= "poisson",method= "MinChisq")
summary(gf)
plot(gf,main="Count data vs Poisson distribution")

3
यह पंक्ति: freq.ex <- (dpois (0: max (x.poi), lambda = lambda.est) * 200) कुछ वास्तविक विश्व डेटा के साथ त्रुटियां पैदा करती है, क्योंकि freq.ex की लंबाई freq से मेल नहीं खाती। इस लाइन पर देखें <- mean (abs (freq.os-trunc (freq.ex)))। मैंने इस लाइन को freq.ex <- (dpois (seq (0, max (x.poi))] [seq (0: max (x.poi))%% में% x.poi], लैम्ब्डा / lambda.est) के रूप में अनुकूलित किया। * 200) लेकिन कुछ अभी भी काफी सही नहीं है क्योंकि गुडफिट चेतावनी देता है।
रुसैलपिएरेस

आपके कोड का उपयोग करके मुझे 121 के फिट इंडेक्स की एक अच्छाई प्राप्त है। लेकिन यह सापेक्ष है, है न? तो यह 0 से 100 के बीच होना चाहिए, है ना?
MERose


5

आप टेस्ट स्टेटिस्टिक के रूप में फैलाव (मध्यमान का अनुपात) का उपयोग कर सकते हैं, क्योंकि पोइसन को 1. का फैलाव देना चाहिए। यहां एक मॉडल परीक्षण के रूप में इसका उपयोग करने का एक लिंक है।


+1 धन्यवाद। अक्सर मुझे कुछ "खरपतवार" परिणाम मिलते हैं, उदाहरण के लिए, एक सामान्य वितरण को एक उच्च पी-मूल्य प्राप्त होता है, फिर एक पॉइसन, जहां लैम्ब्डा अपेक्षाकृत छोटा होता है (इसलिए केवल सामान्य और पॉइसन दिखने में समान नहीं हैं)
डेविड

6
404 नहीं मिला!!
रोड्रिगो

5

पोइसन वितरण के लिए, माध्य विचरण के बराबर होता है। यदि आपका नमूना मतलब आपके नमूना विचरण से बहुत अलग है, तो संभवतः आपके पास पॉइसन डेटा नहीं है। फैलाव परीक्षण भी यहाँ उल्लेख उस धारणा की एक औपचारिकता है।

यदि आपका विचरण आपके मतलब से बहुत बड़ा है, जैसा कि आमतौर पर होता है, तो आप आगे एक नकारात्मक द्विपद वितरण का प्रयास करना चाह सकते हैं।


5
और इसलिए यदि माध्य विचरण के समान है, तो क्या आप यह निष्कर्ष निकाल सकते हैं कि डेटा पोइसन था? मुश्किल से!
पीटर आरआर

सच। आवश्यक है लेकिन पर्याप्त नहीं है।
जॉन डी। कुक

2

आप एक एकल आंकड़ा आकर्षित कर सकते हैं जिसमें अवलोकन और अपेक्षित आवृत्तियों को एक साथ खींचा जाता है। यदि वितरण बहुत भिन्न हैं और आपके पास एक से अधिक विचरण-माध्य अनुपात है, तो एक अच्छा उम्मीदवार नकारात्मक द्विपद है। अनुभाग पढ़ें आवृत्ति वितरण से The R Book। यह एक समान समस्या से संबंधित है।


1

मुझे लगता है कि मुख्य बिंदु यह है कि एक साइडमैस्ट्रो उठाता है ... क्या प्रायोगिक सेटअप या डेटा पीढ़ी तंत्र इस आधार का समर्थन करता है कि डेटा पॉइसन वितरण से उत्पन्न हो सकता है।

मैं वितरण संबंधी धारणाओं के लिए परीक्षण का बहुत बड़ा प्रशंसक नहीं हूं, क्योंकि वे परीक्षण आमतौर पर बहुत उपयोगी नहीं हैं। मेरे लिए जो अधिक उपयोगी लगता है वह है वितरणात्मक या मॉडल धारणाएँ जो कि मॉडल से विचलन के लिए लचीली और यथोचित रूप से मजबूत होती हैं, आमतौर पर अनुमान के प्रयोजनों के लिए। मेरे अनुभव में, औसत = विचरण देखने के लिए यह आम नहीं है, इसलिए अक्सर नकारात्मक द्विपद मॉडल अधिक उपयुक्त लगता है, और इसमें विशेष मामले के रूप में पॉइसन शामिल है।

एक और बिंदु जो वितरणीय परीक्षण के लिए महत्वपूर्ण है, यदि आप जो करना चाहते हैं, वह यह सुनिश्चित करना है कि इसमें शामिल नहीं हैं जो कि आपके द्वारा वितरित वितरण को अन्य वितरणों का मिश्रण बना देगा। व्यक्तिगत स्ट्रैटम-विशिष्ट वितरण पोइसन दिखाई दे सकते हैं, लेकिन देखा गया मिश्रण नहीं हो सकता है। प्रतिगमन की एक अनुरूप स्थिति केवल यह मानती है कि Y | X का सशर्त वितरण सामान्य रूप से वितरित किया जाता है, और वास्तव में Y का वितरण नहीं होता है।


प्रतिगमन के बारे में आपका अंतिम बिंदु केवल तभी सही होगा जब X यादृच्छिक हो। यदि X ठीक किया जाता है तो Y भी एक सामान्य होगा। नहीं?

हां, यह सच है, लेकिन सामान्य प्रतिगमन समस्याओं के लिए (जैसा कि एनोवा या डिज़ाइन की गई समस्याओं के विपरीत), एक्स वास्तव में तय नहीं है, लेकिन अंतर्निहित प्रक्रिया से अवलोकन हैं। हालांकि, पॉइसन मामले के लिए, बिंदु अभी भी पकड़ में है, क्योंकि पॉइज़न के मिश्रण आवश्यक रूप से पॉइसन नहीं हैं।
अभिजीत

0

फिर भी यह परीक्षण करने का एक और तरीका है कि एक प्रमात्रा क्वांटाइल प्लॉट है। आर में, qqplot है। यह सीधे समान और एसडी के साथ एक सामान्य वितरण के खिलाफ आपके मूल्यों को प्लॉट करता है

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.