जवाबों:
सबसे पहले मेरी सलाह है कि आप डेटा के समान ही एक पॉइसन वितरण की कोशिश करने से बचना चाहिए। मेरा सुझाव है कि आपको पहले एक सिद्धांत बनाना चाहिए कि पोइसन वितरण को किसी विशेष डेटासेट या घटना के लिए क्यों फिट होना चाहिए।
एक बार जब आप इसे स्थापित कर लेते हैं, तो अगला प्रश्न यह होता है कि वितरण समरूप है या नहीं। इसका मतलब यह है कि क्या डेटा के सभी हिस्सों को समान पॉइसन वितरण द्वारा नियंत्रित किया जाता है या समय या स्थान जैसे कुछ पहलुओं के आधार पर इसमें भिन्नता है। एक बार जब आप इन पहलुओं के बारे में आश्वस्त हो जाते हैं, तो निम्नलिखित तीन परीक्षणों को आज़माएँ:
इन के लिए खोज और आप उन्हें आसानी से नेट पर मिल जाएगा।
यहाँ R कमांड का एक क्रम है जो सहायक हो सकता है। यदि आप कोई गलती करते हैं तो टिप्पणी या संपादन के लिए स्वतंत्र महसूस करें।
set.seed(1)
x.poi<-rpois(n=200,lambda=2.5) # a vector of random variables from the Poisson distr.
hist(x.poi,main="Poisson distribution")
lambda.est <- mean(x.poi) ## estimate of parameter lambda
(tab.os<-table(x.poi)) ## table with empirical frequencies
freq.os<-vector()
for(i in 1: length(tab.os)) freq.os[i]<-tab.os[[i]] ## vector of emprical frequencies
freq.ex<-(dpois(0:max(x.poi),lambda=lambda.est)*200) ## vector of fitted (expected) frequencies
acc <- mean(abs(freq.os-trunc(freq.ex))) ## absolute goodness of fit index acc
acc/mean(freq.os)*100 ## relative (percent) goodness of fit index
h <- hist(x.poi ,breaks=length(tab.os))
xhist <- c(min(h$breaks),h$breaks)
yhist <- c(0,h$density,0)
xfit <- min(x.poi):max(x.poi)
yfit <- dpois(xfit,lambda=lambda.est)
plot(xhist,yhist,type="s",ylim=c(0,max(yhist,yfit)), main="Poison density and histogram")
lines(xfit,yfit, col="red")
#Perform the chi-square goodness of fit test
#In case of count data we can use goodfit() included in vcd package
library(vcd) ## loading vcd package
gf <- goodfit(x.poi,type= "poisson",method= "MinChisq")
summary(gf)
plot(gf,main="Count data vs Poisson distribution")
मुझे लगता है कि सबसे आसान तरीका यह है कि फिट टेस्ट की ची-स्क्वायर्ड गुडनेस करना है ।
वास्तव में यहाँ अच्छा जावा एप्लेट है कि बस कर देगा!
आप टेस्ट स्टेटिस्टिक के रूप में फैलाव (मध्यमान का अनुपात) का उपयोग कर सकते हैं, क्योंकि पोइसन को 1. का फैलाव देना चाहिए। यहां एक मॉडल परीक्षण के रूप में इसका उपयोग करने का एक लिंक है।
पोइसन वितरण के लिए, माध्य विचरण के बराबर होता है। यदि आपका नमूना मतलब आपके नमूना विचरण से बहुत अलग है, तो संभवतः आपके पास पॉइसन डेटा नहीं है। फैलाव परीक्षण भी यहाँ उल्लेख उस धारणा की एक औपचारिकता है।
यदि आपका विचरण आपके मतलब से बहुत बड़ा है, जैसा कि आमतौर पर होता है, तो आप आगे एक नकारात्मक द्विपद वितरण का प्रयास करना चाह सकते हैं।
आप एक एकल आंकड़ा आकर्षित कर सकते हैं जिसमें अवलोकन और अपेक्षित आवृत्तियों को एक साथ खींचा जाता है। यदि वितरण बहुत भिन्न हैं और आपके पास एक से अधिक विचरण-माध्य अनुपात है, तो एक अच्छा उम्मीदवार नकारात्मक द्विपद है। अनुभाग पढ़ें आवृत्ति वितरण से The R Book
। यह एक समान समस्या से संबंधित है।
मुझे लगता है कि मुख्य बिंदु यह है कि एक साइडमैस्ट्रो उठाता है ... क्या प्रायोगिक सेटअप या डेटा पीढ़ी तंत्र इस आधार का समर्थन करता है कि डेटा पॉइसन वितरण से उत्पन्न हो सकता है।
मैं वितरण संबंधी धारणाओं के लिए परीक्षण का बहुत बड़ा प्रशंसक नहीं हूं, क्योंकि वे परीक्षण आमतौर पर बहुत उपयोगी नहीं हैं। मेरे लिए जो अधिक उपयोगी लगता है वह है वितरणात्मक या मॉडल धारणाएँ जो कि मॉडल से विचलन के लिए लचीली और यथोचित रूप से मजबूत होती हैं, आमतौर पर अनुमान के प्रयोजनों के लिए। मेरे अनुभव में, औसत = विचरण देखने के लिए यह आम नहीं है, इसलिए अक्सर नकारात्मक द्विपद मॉडल अधिक उपयुक्त लगता है, और इसमें विशेष मामले के रूप में पॉइसन शामिल है।
एक और बिंदु जो वितरणीय परीक्षण के लिए महत्वपूर्ण है, यदि आप जो करना चाहते हैं, वह यह सुनिश्चित करना है कि इसमें शामिल नहीं हैं जो कि आपके द्वारा वितरित वितरण को अन्य वितरणों का मिश्रण बना देगा। व्यक्तिगत स्ट्रैटम-विशिष्ट वितरण पोइसन दिखाई दे सकते हैं, लेकिन देखा गया मिश्रण नहीं हो सकता है। प्रतिगमन की एक अनुरूप स्थिति केवल यह मानती है कि Y | X का सशर्त वितरण सामान्य रूप से वितरित किया जाता है, और वास्तव में Y का वितरण नहीं होता है।