सहज रूप से समझें कि पोइसन वितरण द्विपद वितरण का सीमित मामला क्यों है


14

डीएस सिविया द्वारा "डेटा विश्लेषण" में, द्विपद वितरण से पोइसन वितरण की व्युत्पत्ति है।

उनका तर्क है कि M , जहां M परीक्षणों की संख्या है , पोइसोन वितरण द्विपद वितरण का सीमित मामला है ।

प्रश्न 1: उस तर्क को सहज रूप से कैसे समझा जा सकता है?

प्रश्न 2: क्यों बड़े है M की सीमा एम एन केM!N!(MN)! बराबरMNN!, जहाँ,Mपरीक्षणोंNमें सफलताओं की संख्या है? (यह कदम व्युत्पत्ति में उपयोग किया जाता है।)M


जवाबों:


5

मैं एक सरल सहज व्याख्या की कोशिश करूंगा। रिकॉर्ड है कि एक द्विपद यादृच्छिक चर के लिए XBin(n,p) हम उम्मीद है np और विचरण है np(1p) । अब लगता है कि X एक बहुत बड़ी संख्या में होने वाली घटनाओं की संख्या रिकॉर्ड n परीक्षण, एक बहुत छोटे संभावना के साथ प्रत्येक के p , इस तरह है कि हम बहुत करीब हैं 1p=1 (वास्तव में )। तब हम np=λकहते हैं, और np(1p)np1=λ है, तो मतलब और विचरण दोनों के बराबर हैं λ । फिर याद रखें कि एक कविता वितरित यादृच्छिक चर के लिए, हमारे पास हमेशा मतलब और भिन्नता होती है! यह कम से कम पॉइज़नन अनुमान के लिए एक बहुतायत तर्क है, लेकिन प्रमाण नहीं है।

फिर इसे दूसरे दृष्टिकोण से देखें , असली लाइन पर पोइसन पॉइंट प्रोसेस https://en.wikipedia.org/wiki/Poisson_point_process । यह उस पंक्ति पर यादृच्छिक बिंदुओं का वितरण है जो हमें मिलता है यदि नियम के अनुसार यादृच्छिक अंक आते हैं:

  1. अव्यवस्था अंतराल में अंक स्वतंत्र हैं
  2. एक बहुत ही कम अंतराल में एक यादृच्छिक बिंदु की संभावना अंतराल की लंबाई के लिए आनुपातिक है
  3. बहुत कम अंतराल में दो या दो से अधिक बिंदुओं की संभावना अनिवार्य रूप से शून्य है।

फिर एक दिए गए अंतराल (जरूरी कम नहीं) में अंकों की संख्या के वितरण प्वासों (पैरामीटर के साथ है λ लंबाई के अनुपात)। अब, यदि हम इस अंतराल को बहुत से, समान रूप से बहुत कम उप-केंद्रों ( n ) में विभाजित करते हैं, तो किसी दिए गए उप-केंद्र में दो या दो से अधिक बिंदुओं की संभावना अनिवार्य रूप से शून्य है, इसलिए यह संख्या बहुत अच्छे सन्निकटन के लिए होगी, एक भोलौली वितरण, वह है, Bin(1,p) , इसलिए इस सब का योग Bin(n,p) , इसलिए उस (लंबे) अंतराल में अंकों की संख्या के पॉइसन वितरण का एक अच्छा अनुमान है।

@Ytsen de Boer (OP) से संपादित करें : प्रश्न संख्या 2 @ asukasz ग्रेड द्वारा संतोषजनक रूप से उत्तर दिया गया है।


6

मुझे एक वैकल्पिक उत्तराधिकार प्रदान करते हैं। मैं दिखाने के लिए कैसे एक द्विपद (और तर्क है कि अनुमान कम संभावना के साथ कई परीक्षणों के लिए बेहतर है) के रूप में पॉइसन प्रक्रिया का अनुमान लगाने के लिए जा रहा हूं। इसलिए द्विपद वितरण को पोइसन वितरण के लिए करना चाहिए।

मान लीजिए कि समय के साथ लगातार घटनाएं हो रही हैं। हम एक दिन में कितनी घटनाओं का वितरण जानना चाहते हैं, यह जानते हुए कि घटनाओं की अपेक्षित संख्या λ

खैर, प्रति घंटे की घटनाओं की अपेक्षित संख्या λ/24 । आइए दिखाते हैं कि इसका अर्थ है कि किसी दिए गए घंटे में होने वाली घटना की संभावना λ/24 । [यह बहुत सही नहीं है, लेकिन यह एक सभ्य सन्निकटन अगर है λ/241 मूल रूप से अगर हम कई घटनाओं में एक ही घंटे में नहीं होता है यह मान सकते हैं]। तब हम M=24 परीक्षणों के साथ द्विपद के रूप में घटनाओं की संख्या के वितरण को अनुमानित कर सकते हैं , जिनमें से प्रत्येक में सफलता की संभावना λ/24

हम अपने अंतराल को मिनटों में बदलकर सन्निकटन में सुधार करते हैं। फिर यह M = 1440 परीक्षणों के साथ p=λ/1440 । यदि λ आसपास है, तो 10 कहें, तो हम बहुत आश्वस्त हो सकते हैं कि किसी भी मिनट में दो घटनाएं नहीं हुईं।M=1440λ

निश्चित रूप से यह बेहतर हो जाता है अगर हम सेकंड में स्विच करते हैं। अब हम छोटे प्रायिकता λ / 86400 के साथ M=86400 घटनाओं को देख रहे हैं । λ/86400

कोई फर्क नहीं पड़ता कितना बड़ा अपने λ है, मैं अंत में एक छोटे से पर्याप्त चुन सकते हैं Δt ऐसी है कि वह बहुत संभव है कि कोई दो घटनाओं में एक ही अंतराल में हो रहा है। फिर उस Δt से संबंधित द्विपद वितरण , वास्तविक Poisson वितरण के लिए एक उत्कृष्ट मेल होगा।

एकमात्र कारण वे बिल्कुल एक जैसे नहीं हैं, एक गैर-शून्य संभावना है कि एक ही समय अंतराल में दो घटनाएं होती हैं। लेकिन वहाँ केवल λ घटनाओं के आसपास हैं और वे कुछ संख्या में λ तुलना में अधिक वितरित कर रहे हैं , यह संभावना नहीं है कि उनमें से कोई दो एक ही बिन में झूठ बोलते हैं।

या दूसरे शब्दों में, द्विपद वितरण पूस वितरण को M words के रूप में दर्शाता है, यदि सफलता की संभावना p=λ/M


5

प्रश्न 1

द्विपद वितरण की परिभाषा याद करें:

दिए गए परीक्षणों में से प्रत्येक में सफल परिणामों की संभावित संख्या का एक आवृत्ति वितरण है, जिसमें सफलता की एक ही संभावना है।

इसकी तुलना पॉसों के वितरण की परिभाषा से करें:

एक असतत आवृत्ति वितरण जो एक निश्चित समय में होने वाली कई स्वतंत्र घटनाओं की संभावना देता है ।

2 के बीच का पर्याप्त अंतर द्विपद परीक्षणों में है, पोइसन एक समय अवधि टी पर है । सीमा सहज रूप से कैसे हो सकती है?nt

आइए हम बताते हैं कि आपको सभी अनंत काल के लिए बर्नौली का परीक्षण जारी रखना होगा। इसके अलावा, आप प्रति मिनट चलाते हैं । प्रति मिनट आप प्रत्येक सफलता की गिनती करते हैं। तो सभी अनंत काल के लिए आप हर मिनट एक बी आई एन ( पी , 30 ) प्रक्रिया चला रहे हैं । 24 घंटों में, आपके पास B i n ( p , 43200 ) हैn=30Bin(p,30)Bin(p,43200)

जब आप थक जाते हैं, तो आपसे पूछा जाता है कि "18:00 और 19:00 के बीच कितनी सफलताएँ मिलीं?"। तुम हो जवाब हो सकता है , आप एक घंटे में औसत सफलताओं प्रदान अर्थात्। यह बहुत कुछ लगता है जैसे कि पोइसन पैरामीटर मेरे लिए λ है।3060pλ


5

Question 2)

M!N!(MN)!MNN!=M(M1)(MN+1)MN=1(11M)(1N1M)

So taking the limit for fixed N

limMM!N!(MN)!MNN!=limM1(11M)(1N1M)=1

+1. I started by looking at Stirling's approximation, but started running round in circles. You're approach is much simpler.

I dont think this is what the OP will find intuitive ...
kjetil b halvorsen

@kjetilbhalvorsen I tried to use simplest math possible, intuitively for large M we have MMk for fixed k<<M
Łukasz Grad

1
@kjetilbhalvorsen This is an answer to Q2 (derivation step), not Q1 (intuitive explanation)
Ben Bolker

NMωΩlimmXm(ω)X(ω)
Łukasz Grad

5

The problem is that your characterization of the Poisson as a limiting case of the binomial distribution is not quite correct as stated.

The Poisson is a limiting case of the binomial when:

MandMpλ.
The second part is important. If p remains fixed, the first condition implies that the rate will also increase without bound.

What the Poisson distribution assumes is that events are rare. What we mean by "rare" is not that the rate of events is small--indeed, a Poisson process may have a very high intensity λ--but rather, that the probability of an event occurring at any instant in time [t,t+dt) is vanishingly small. This is in contrast to a binomial model where the probability p of an event (e.g. "success") is fixed for any given trial.

To illustrate, suppose we model a series of M independent Bernoulli trials each with probability of success p, and we look at what happens to the distribution of the number of successes X as M. For any N as large as we please, and no matter how small p is, the expected number of successes E[X]=Mp>N for M>N/p. Put another way, no matter how unlikely the probability of success, eventually you can achieve an average number of successes as large as you please if you perform sufficiently many trials. So, M (or, just saying "M is large") is not enough to justify a Poisson model for X.

It is not difficult to algebraically establish

Pr[X=x]=eλλxx!,x=0,1,2,
as a limiting case of
Pr[X=x]=(Mx)px(1p)Mx,x=0,1,2,,M
by setting p=λ/M and letting M. Other answers here have addressed the intuition behind this relationship and provided computational guidance as well. But it is important that p=λ/M. You can't ignore this.

0

I can only attempt a part answer and it is about the intuition for Question 2, not a rigorous proof.

The binomial coefficient gives you the number of samples of size N, from M, without replacement and without order.

Here though M becomes so large that you may approximate the scenario as sampling with replacement in which case you get MN ordered samples. If you don't care about the order of the N objects chosen this reduces to MN/N! because those N objects can be ordered in N! ways.


-2

Balls falling through layers of pegs

I think this is the best example that intuitively explains how binomial distribution converges to normal with large number of balls. Here, each ball has equal probability of falling on either side of the peg in each layer and all the balls have to face same number of pegs. It can be easily seen that as the number of balls goes very high the distribution of balls in different sections will be like normal distribution.

My answer to your question 2 is same as the answer given by Lukasz.


2
This isn't really answering the question, it answers another question ...
kjetil b halvorsen

I have tried to intuitively explain what asked in question 1. Can you please elaborate why you think it is not an answer to it?
samwise_the_wise

1
Sorry, I got the point now. I answered a completely different question. My bad.
samwise_the_wise

1
I see a heavily discretized version of a binomial distribution. Why should it be obvious that the distribution of balls at the bottom of this quincunx should be normal? Regardless of how many balls you drop through this machine, you will still get a distribution of counts in 13 bins: that cannot possibly be normal!
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.