एक वितरण के लिए अनंत तरीके हैं जो एक पॉइसन वितरण से थोड़ा अलग हैं; आप यह नहीं पहचान सकते हैं कि डेटा का एक सेट एक पॉइसन वितरण से लिया गया है। आप जो कर सकते हैं वह असंगतता की तलाश में है जिसे आपको पॉइसन के साथ देखना चाहिए, लेकिन स्पष्ट असंगतता की कमी इसे पॉइसन नहीं बनाती है।
हालाँकि, आप उन तीन मानदंडों की जाँच करके वहां क्या बात कर रहे हैं, यह जाँच नहीं कर रहा है कि डेटा सांख्यिकीय साधनों (अर्थात डेटा को देखकर) द्वारा एक पॉइसन वितरण से आया है, लेकिन यह आकलन करके कि क्या डेटा द्वारा संतुष्ट होने वाली प्रक्रिया उत्पन्न होती है एक पॉइसन प्रक्रिया की शर्तें; यदि सभी स्थितियाँ या लगभग आयोजित की जाती हैं (और यह डेटा जनरेट करने की प्रक्रिया का एक विचार है), तो आपके पास एक पॉइसन प्रक्रिया से कुछ या बहुत करीब हो सकता है, जो बदले में डेटा प्राप्त करने का एक तरीका होगा जो किसी करीबी से कुछ के लिए तैयार है। पॉसों वितरण।
लेकिन स्थितियां कई मायनों में पकड़ में नहीं आतीं ... और सच होने से सबसे बड़ी संख्या 3 है। उस आधार पर कोई विशेष कारण नहीं है कि एक पॉइसन प्रक्रिया पर जोर दिया जाए, हालांकि उल्लंघन इतने बुरे नहीं हो सकते कि परिणामी डेटा दूर हो पोइसन से।
इसलिए हम सांख्यिकीय तर्कों पर वापस आ गए हैं जो डेटा की स्वयं जांच करने से आते हैं। डेटा कैसे दिखाएगा कि वितरण पॉइसन था, बजाय इसके कुछ जैसा?
जैसा कि शुरू में उल्लेख किया गया है, आप जो कर सकते हैं वह यह है कि क्या डेटा स्पष्ट रूप से अंतर्निहित वितरण के साथ असंगत नहीं है, लेकिन यह नहीं बताया गया है कि वे एक पॉइसन से तैयार किए गए हैं (आप पहले से ही आश्वस्त हो सकते हैं कि वे हैं नहीं)।
आप इस जाँच को फिट परीक्षणों की अच्छाई के माध्यम से कर सकते हैं।
जिस चि-स्क्वायर का उल्लेख किया गया था, वह एक ऐसा है, लेकिन मैं इस स्थिति के लिए ची-स्क्वायर परीक्षण की सिफारिश नहीं करूँगा **; यह दिलचस्प विचलन के खिलाफ कम शक्ति है। यदि आपका उद्देश्य अच्छी शक्ति है, तो आप इसे उस तरह से प्राप्त नहीं करेंगे (यदि आप शक्ति की परवाह नहीं करते हैं, तो आप परीक्षण क्यों करेंगे)। इसका मुख्य मूल्य सादगी में है, और इसका शैक्षणिक मूल्य है; इसके बाहर, यह फिट टेस्ट की अच्छाई के रूप में प्रतिस्पर्धी नहीं है।
** बाद के संपादन में जोड़ा गया: अब जब यह स्पष्ट हो गया है कि यह होमवर्क है, तो संभावना है कि डेटा की जांच करने के लिए ची-स्क्वेर्ड टेस्ट करने की उम्मीद है कि पॉइसन असंगत नहीं है। मेरे उदाहरण ची-स्क्वायर फिटनेस का उदाहरण देखें, जो पहले पॉइज़ननेस प्लॉट के नीचे किया गया था
लोग अक्सर इन परीक्षणों को गलत कारण के लिए करते हैं (उदाहरण के लिए क्योंकि वे कहना चाहते हैं 'इसलिए डेटा के साथ कुछ अन्य सांख्यिकीय कार्य करना ठीक है जो मानता है कि डेटा पॉइज़न हैं')। असली सवाल यह है कि 'कितनी बुरी तरह से गलत हो सकता है?' ... और फिट परीक्षणों की अच्छाई वास्तव में उस सवाल से बहुत मदद नहीं करती है। अक्सर उस सवाल का जवाब सबसे अच्छा होता है जो नमूना आकार का स्वतंत्र (/ लगभग स्वतंत्र) होता है — और कुछ मामलों में, ऐसे परिणामों के साथ, जो नमूना आकार के साथ चले जाते हैं ... जबकि फिट परीक्षण की एक अच्छाई बेकार है छोटे नमूने (जहां मान्यताओं के उल्लंघन से आपका जोखिम अक्सर सबसे बड़ा होता है)।
यदि आपको एक पॉइसन वितरण के लिए परीक्षण करना चाहिए तो कुछ उचित विकल्प हैं। AD आँकड़ों के आधार पर एंडरसन-डार्लिंग टेस्ट के आधार पर कुछ करना होगा, लेकिन अशक्त वितरण का उपयोग करके (असतत वितरण की जुड़वां समस्याओं के लिए खाता है और आपको मापदंडों का अनुमान लगाना होगा)।
एक सरल विकल्प फिट की भलाई के लिए एक चिकना परीक्षण हो सकता है - ये बहुपदों के एक परिवार का उपयोग करके डेटा के मॉडलिंग के लिए व्यक्तिगत वितरण के लिए डिज़ाइन किए गए परीक्षणों का एक संग्रह है जो शून्य में संभाव्यता फ़ंक्शन के संबंध में ऑर्थोगोनल हैं। निम्न क्रम (यानी दिलचस्प) विकल्पों का परीक्षण करके पता लगाया जाता है कि क्या आधार के ऊपर के बहुपद के गुणांक शून्य से अलग हैं, और ये आमतौर पर परीक्षण से सबसे कम क्रम की शर्तों को छोड़ कर पैरामीटर अनुमान से निपट सकते हैं। पोइसन के लिए ऐसी परीक्षा है। मुझे एक संदर्भ खोद सकते हैं यदि आपको इसकी आवश्यकता है।
एन ( 1 - आर2)लॉग( x)कश्मीर) + लॉग( के ! )कश्मीर
यहाँ उस गणना (और प्लॉट) का एक उदाहरण है, जो R में किया गया है:
y=rpois(100,5)
n=length(y)
(x=table(y))
y
0 1 2 3 4 5 6 7 8 9 10
1 2 7 15 19 25 14 7 5 1 4
k=as.numeric(names(x))
plot(k,log(x)+lfactorial(k))
यहाँ मैंने जो आँकड़ा सुझाया है, वह एक पॉसन के फिट टेस्ट की अच्छाई के लिए इस्तेमाल किया जा सकता है:
n*(1-cor(k,log(x)+lfactorial(k))^2)
[1] 1.0599
बेशक, पी-मूल्य की गणना करने के लिए, आपको नल के तहत परीक्षण सांख्यिकीय के वितरण का अनुकरण करने की भी आवश्यकता होगी (और मैंने चर्चा नहीं की है कि मूल्यों की सीमा के भीतर शून्य-गणना से कैसे निपट सकते हैं)। यह एक बहुत शक्तिशाली परीक्षण उपज चाहिए। कई अन्य वैकल्पिक परीक्षण हैं।
यहाँ एक ज्यामितीय वितरण (p = .3) से 50 के आकार के नमूने पर एक Poissonness साजिश करने का एक उदाहरण है:
जैसा कि आप देख रहे हैं, यह एक स्पष्ट 'किंक' को प्रदर्शित करता है, जो अशुद्धता का संकेत देता है
Poissonness साजिश के लिए संदर्भ होगा:
डेविड सी। होग्लिन (1980),
"ए पोइसननेस प्लॉट",
द अमेरिकन स्टेटिस्टिशियन
वॉल्यूम। 34, नंबर 3 (अगस्त), पीपी 146-149
तथा
Hoaglin, डी और जे Tukey (1985),
"9. असतत वितरण का आकार जाँच हो रही है",
डाटा टेबल्स, रुझान और आकृतियाँ तलाश ,
(Hoaglin, Mosteller और Tukey एड्स)
जॉन विले एंड संस
दूसरे संदर्भ में छोटे गिनती के लिए भूखंड का समायोजन शामिल है; आप शायद इसे शामिल करना चाहेंगे (लेकिन मेरे पास हाथ का संदर्भ नहीं है)।
फिट परीक्षण के ची-स्क्वायर अच्छाई करने का उदाहरण:
फिट की ची-स्क्वायर अच्छाई करने के अलावा, जिस तरह से यह आम तौर पर बहुत सारी कक्षाओं में होने की उम्मीद की जाती है (हालांकि जिस तरह से मैं यह करूँगा वह नहीं है):
1: अपने डेटा के साथ शुरू, (जो मैं डेटा ले जाऊंगा जिसे मैंने बेतरतीब ढंग से ऊपर 'y' में उत्पन्न किया था, गणना की तालिका उत्पन्न करें:
(x=table(y))
y
0 1 2 3 4 5 6 7 8 9 10
1 2 7 15 19 25 14 7 5 1 4
2: प्रत्येक सेल में अपेक्षित मान की गणना करें, जो कि एमएल द्वारा लगाए गए एक पोइसन को मानते हैं:
(expec=dpois(0:10,lambda=mean(y))*length(y))
[1] 0.7907054 3.8270142 9.2613743 14.9416838 18.0794374 17.5008954 14.1173890 9.7611661
[9] 5.9055055 3.1758496 1.5371112
3: ध्यान दें कि अंतिम श्रेणियां छोटी हैं; यह ची-स्क्वायर वितरण को टेस्ट स्टेटिस्टिक के वितरण के लिए एक सन्निकटन के रूप में कम अच्छा बनाता है (एक सामान्य नियम यह है कि आप कम से कम 5 के अपेक्षित मान चाहते हैं, हालांकि कई पत्रों ने दिखाया है कि नियम अनावश्यक रूप से प्रतिबंधात्मक है; मैं इसे ले जाऊंगा; करीब, लेकिन सामान्य दृष्टिकोण एक सख्त नियम के लिए अनुकूलित किया जा सकता है)। आसन्न श्रेणियों को संक्षिप्त करें, ताकि न्यूनतम अपेक्षित मान कम से कम 5 से बहुत कम न हों (10 से अधिक श्रेणियों में से 1 के पास अपेक्षित गणना के साथ एक श्रेणी बहुत खराब नहीं है, दो सुंदर सीमा रेखा है)। यह भी ध्यान दें कि हमने अभी तक "10" से अधिक संभावना के लिए जिम्मेदार नहीं है, इसलिए हमें इसे शामिल करने की भी आवश्यकता है:
expec[1]=sum(expec[1:2])
expec[2:8]=expec[3:9]
expec[9]=length(y)-sum(expec[1:8])
expec=expec[1:9]
expec
sum(expec) # now adds to n
4: इसी तरह, मनाया पर पतन श्रेणियों:
(obs=table(y))
obs[1]=sum(obs[1:2])
obs[2:8]=obs[3:9]
obs[9]=sum(obs[10:11])
obs=obs[1:9]
5: ची-स्क्वायर में योगदान के साथ (वैकल्पिक रूप से) एक टेबल में डालें( ओ)मैं- ईमैं)2/ ईमैं
print(cbind(obs,expec,PearsonRes=(obs-expec)/sqrt(expec),ContribToChisq=(obs-expec)^2/expec),d=4)
obs expec PearsonRes ContribToChisq
0 3 4.618 -0.75282 0.5667335
1 7 9.261 -0.74308 0.5521657
2 15 14.942 0.01509 0.0002276
3 19 18.079 0.21650 0.0468729
4 25 17.501 1.79258 3.2133538
5 14 14.117 -0.03124 0.0009761
6 7 9.761 -0.88377 0.7810581
7 5 5.906 -0.37262 0.1388434
8 5 5.815 -0.33791 0.1141816
एक्स2= ∑मैं( ईमैं- ओमैं)2/ ईमैं
(chisq = sum((obs-expec)^2/expec))
[1] 5.414413
(df = length(obs)-1-1) # lose an additional df for parameter estimate
[1] 7
(pvalue=pchisq(chisq,df))
[1] 0.3904736
दोनों निदान और पी-मूल्य यहां फिट की कमी नहीं दिखाते हैं ... जो हम उम्मीद करेंगे, क्योंकि हमने जो डेटा वास्तव में उत्पन्न किया था, वह पॉइसन थे।
संपादित करें: यहाँ रिक विकलिन के ब्लॉग का लिंक दिया गया है, जो पॉसनेस प्लॉट पर चर्चा करता है, और एसएएस और मतलाब में कार्यान्वयन के बारे में बात करता है
http://blogs.sas.com/content/iml/2012/04/12/the-poissonness-plot-a-goodness-of-fit-diagnostic/
Edit2: अगर मेरे पास यह सही है, तो 1985 के संदर्भ से संशोधित Poissonness का प्लॉट * होगा:
y=rpois(100,5)
n=length(y)
(x=table(y))
k=as.numeric(names(x))
x=as.vector(x)
x1 = ifelse(x==0,NA,ifelse(x>1,x-.8*x/n-.67,exp(-1)))
plot(k,log(x1)+lfactorial(k))
* वे वास्तव में अवरोधन को भी समायोजित करते हैं, लेकिन मैंने यहां ऐसा नहीं किया है; यह कथानक की उपस्थिति को प्रभावित नहीं करता है, लेकिन आपको यह ध्यान रखना होगा कि यदि आप संदर्भ से कुछ और कार्यान्वित करते हैं (जैसे कि विश्वास अंतराल) यदि आप इसे उनके दृष्टिकोण से अलग तरीके से करते हैं।
(उपरोक्त उदाहरण के लिए पहले पॉइज़ननेस प्लॉट से उपस्थिति शायद ही बदलती है।)