पॉइज़न वितरण सामान्य वितरण के लिए अलग कैसे है?


29

मैंने एक वेक्टर तैयार किया है जिसमें एक पॉइसन वितरण है, जो निम्नानुसार है:

x = rpois(1000,10)

यदि मैं एक हिस्टोग्राम का उपयोग करता हूं hist(x), तो वितरण एक परिचित घंटी के आकार के सामान्य वितरण जैसा दिखता है। हालांकि, कोलमोगोरोव-स्मरनॉफ परीक्षण का उपयोग करके ks.test(x, 'pnorm',10,3)कहा गया है कि वितरण बहुत कम pमूल्य के कारण एक सामान्य वितरण के लिए काफी अलग है ।

तो मेरा सवाल यह है कि पॉइज़न वितरण सामान्य वितरण से कैसे भिन्न होता है, जब हिस्टोग्राम सामान्य वितरण के समान दिखता है?


इसके अलावा (डेविड के जवाब के लिए एक ऐड-इन के रूप में): इसे पढ़ें ( आंकड़े ।stackexchange.com/a/2498/603 ) और अपना नमूना आकार 100 पर सेट करें और जो अंतर दिखता है उसे देखें।
user603

जवाबों:


20
  1. एक पॉइसन डिस्ट्रीब्यूशन असतत है जबकि एक सामान्य डिस्ट्रीब्यूशन निरंतर है, और एक पिसोन रैंडम वैरिएबल हमेशा> = 0. है। इस प्रकार, एक कोलगोमोरोव-स्मिर्नोव परीक्षण अक्सर अंतर बताने में सक्षम होगा।

  2. जब एक पॉइसन वितरण का मतलब बड़ा होता है, तो यह एक सामान्य वितरण के समान हो जाता है। हालाँकि, rpois(1000, 10)यह भी नहीं दिखता है कि सामान्य वितरण के समान (यह 0 पर कम रुकता है और दाहिनी पूंछ बहुत लंबी होती है)।

  3. आप इसकी ks.test(..., 'pnorm', 10, 3)बजाए तुलना क्यों कर रहे हैं ks.test(..., 'pnorm', 10, sqrt(10))? 3 और √ के बीच का अंतर छोटे हैं, लेकिन वितरण की तुलना करते समय खुद में फर्क पड़ेगा। यहां तक ​​कि अगर वितरण वास्तव में सामान्य थे, तो आप एक विरोधी रूढ़िवादी पी-मूल्य वितरण के साथ समाप्त हो जाएंगे:10

    set.seed(1)
    
    hist(replicate(10000, ks.test(rnorm(1000, 10, sqrt(10)), 'pnorm', 10, 3)$p.value))
    

यहां छवि विवरण दर्ज करें


3
अक्सर लोग कुछ अस्पष्ट समरूपता देखेंगे और यह मान लेंगे कि यह "सामान्य" है। मुझे संदेह है कि @Ross ने क्या देखा।
फरिजो जू

2
ध्यान दें कि केएस परीक्षण आम तौर पर निरंतर वितरण को मानता है, इसलिए इस मामले में रिपोर्ट किए गए पी-मूल्य पर भरोसा करना कुछ भी संदिग्ध हो सकता है।
कार्डिनल

1
सच: hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))यह दर्शाता है कि दो समान पॉइसन वितरणों की तुलना करने वाला परीक्षण बहुत अधिक रूढ़िवादी होगा।
डेविड रॉबिन्सन


17

यहां इसे समझने का बहुत आसान तरीका दिया गया है:

आप अधिकांश वितरण के "माँ" के रूप में द्विपद वितरण को देख सकते हैं। सामान्य वितरण द्विपद वितरण का सिर्फ एक अनुमान है जब n काफी बड़ा हो जाता है। वास्तव में, अब्राहम डी मोइवर ने अनिवार्य रूप से द्विपद वितरण की अनुमानित कोशिश करते हुए सामान्य वितरण की खोज की क्योंकि यह जल्दी से हाथ से बाहर निकलकर द्विपद वितरण की गणना करने के लिए जाता है क्योंकि n तब बढ़ता है जब आपके पास कंप्यूटर ( संदर्भ ) नहीं है।

पॉइसन वितरण भी द्विपद वितरण का सिर्फ एक अन्य सन्निकटन है, लेकिन यह सामान्य वितरण की तुलना में बहुत बेहतर है, जब n बड़ा है और पी छोटा है, या अधिक सटीक है जब औसत लगभग विचरण के समान है (याद रखें कि द्विपद वितरण के लिए, औसत = np और var = एनपी (1-पी)) ( संदर्भ )। यह विशेष स्थिति इतनी महत्वपूर्ण क्यों है? जाहिर तौर पर यह वास्तविक दुनिया में बहुत मायने रखता है और इसीलिए हमारे पास यह "विशेष" सन्निकटन है। उदाहरण के नीचे उन परिदृश्यों को दिखाता है जहां पॉइज़न सन्निकटन वास्तव में बहुत अच्छा काम करता है।

उदाहरण

हमारे पास 100,000 कंप्यूटरों का डाटासेंटर है। आज दिए गए किसी भी कंप्यूटर की संभावना 0.001 है। तो औसत np = 100 कंप्यूटर डेटा सेंटर में विफल हो जाते हैं। क्या संभावना है कि केवल 50 कंप्यूटर आज विफल हो जाएंगे?

Binomial: 1.208E-8
Poisson: 1.223E-8
Normal: 1.469E-7

वास्तव में, सामान्य वितरण के लिए सन्निकटन की गुणवत्ता नाली के नीचे जाती है जैसा कि हम वितरण की पूंछ में जाते हैं, लेकिन पोइसन अच्छी तरह से जारी रखता है। उपरोक्त उदाहरण में, आइए विचार करें कि क्या संभावना है कि केवल 5 कंप्यूटर आज विफल होंगे?

Binomial: 2.96E-36 
Poisson: 3.1E-36
Normal: 9.6E-22

उम्मीद है, यह आपको इन 3 वितरणों की बेहतर सहज समझ देता है।


क्या अद्भुत और बेहतरीन जवाब! बहुत बहुत धन्यवाद। :)
बोरा एम। अल्पर

11

λnपीnपीn=λ/n

एक नहीं बल्कि लंबा विकास इस ब्लॉग पर पाया जा सकता है ।

एक्सn~बीमैंnमीटरमैंएल(n,λ/n) कश्मीर

पी(एक्सn=कश्मीर)=n!कश्मीर!(n-कश्मीर)!(λn)कश्मीर(1-λn)n-कश्मीर=n!n-कश्मीर(n-कश्मीर)!1λकश्मीरकश्मीर!(1-λ/n)n-λ(1-λ/n)-कश्मीर1

nकश्मीर

पी(एक्सn=कश्मीर)-λλकश्मीरकश्मीर!,
n(1-λ/n)n-λ

nपीएन(nपी,nपी(1-पी))nपीपीn=λ/n0λn


(+1) साइट पर आपका स्वागत है। मैंने कुछ संपादन किए हैं; कृपया जांच लें कि मैंने इस प्रक्रिया में कोई त्रुटि पेश नहीं की है। मुझे इस बात का बिलकुल भी अंदाजा नहीं था कि अंतिम वाक्य में बहुत ही अंतिम वाक्यांश का क्या बनाना है। कुछ अतिरिक्त स्पष्टीकरण वहाँ सहायक हो सकता है।
कार्डिनल

1
nपीnλपीλ
कार्डिनल

1
nλपीn1/2

धन्यवाद। मैं देख रहा हूं कि आप अब क्या कहना चाह रहे थे। मैं आम तौर पर सहमत हूं, इस चेतावनी के साथ कि मापदंडों के बीच संबंधों के साथ कुछ देखभाल करने की आवश्यकता है, जिन्हें निश्चित माना जाता है और जो दूसरों के साथ भिन्न होते हैं। :)
कार्डिनल

हाय मूरत और साइट पर आपका स्वागत है! यहाँ आपको देखना अच्छा है और मुझे आशा है कि आप चारों ओर से चिपके रहेंगे। +1 यह बताने के लिए कि एक कविता का हिस्टोग्राम बहुत सामान्य जैसा है जब बड़ा है।λ
मैक्रो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.