यह वितरण एक समान क्यों है?


12

हम बायेसियन सांख्यिकीय परीक्षण की जांच कर रहे हैं, और एक विषम (मेरे लिए कम से कम) घटना पर आते हैं।

निम्नलिखित मामले पर विचार करें: हम यह मापने में रुचि रखते हैं कि कौन सी जनसंख्या, ए या बी, की उच्च रूपांतरण दर है। एक जांच के लिए, हम सेट , , रूपांतरण की संभावना दोनों समूहों में समान है। हम एक द्विपद मॉडल का उपयोग करके कृत्रिम डेटा उत्पन्न करते हैं, उदाहरण के लिएpA=pबी

n~द्विपद(एन,पी)

फिर हम एक बायेसियन बीटा- मॉडल का उपयोग करके का अनुमान लगाने का प्रयास करते हैं ताकि हम प्रत्येक रूपांतरण दर के लिए प्राप्त करें, जैसेपी,पीबी

पी~बीटा(1+n,एन-n+1)

मोंटे कार्लो के माध्यम से की गणना करके हमारे परीक्षण सांख्यिकीय की गणना की जाती है ।एस=पी(पी>पीबी|एन,n,nबी)

मुझे आश्चर्य हुआ कि यदि , तो । मेरे विचार थे कि यह लगभग 0.5 के आसपास केंद्रित होगा, और यहां तक ​​कि 0.5 के लिए नमूना आकार, , बढ़ता है। पी=पीबीएस~वर्दी (0,1)एन

मेरा प्रश्न है, जब है तो ?पी = पी बीएस~वर्दी (0,1)पी=पीबी


यहाँ कुछ पायथन कोड प्रदर्शित करने के लिए है:

%pylab
from scipy.stats import beta
import numpy as np
import pylab as P

a = b = 0.5
N = 10000
samples = [] #collects the values of S
for i in range(5000):
    assert a==b
    A = np.random.binomial(N, a); B = np.random.binomial(N, b)
    S = (beta.rvs(A+1, N-A+1, size=15000) > beta.rvs(B+1, N-B+1, size=15000)).mean() 
    samples.append(S)

P.hist(samples)
P.show()

SNपी = पी = पी बी100/मिनट(पी,1-पी)पी=पी=पीबी

@ वाउबर एस असतत नहीं है, यह एक संभावना है जो 0 और 1 के बीच गिर सकती है। इसके अलावा, निम्न एन के लिए भी, मैं एक समान व्यवहार देख रहा हूं।
Cam.Davidson.Pilon

2
मुझे आपके सेटअप की गलतफहमी होगी, तब। जहाँ तक मैं बता सकता हूँ, किसी भी मान के लिए का मान एक संख्या है। इसलिए, यह स्वीकार करते हुए कि और फिलहाल तय किए गए हैं (जैसा कि वे आपके कोड में हैं), एक फ़ंक्शन है । लेकिन उत्तरार्द्ध, दो द्विपद वितरण के बोध होने के कारण, मूल्यों का एक असतत सेट प्राप्त कर सकता है। जब मैं आपके कोड को पुन: प्रस्तुत करता हूं , तो मुझे छोटे लिए निश्चित रूप से गैर-समान हिस्टोग्राम मिल जाता है । एस एन , पी , पी बी एस ( एन , एन बी ) एनएन,n,nबी,एसएन,पी,पीबीएस(n,nबी)Rएन
whuber

1
हालाँकि वास्तव में आपके में और बीच मान हैं , लेकिन यह न समझें कि गैर-असतत के साथ: यह अधिकांश अलग-अलग मानों में हो सकता है (और वास्तव में इससे कम है)। यह पूरी तरह से आप के लिए स्पष्ट है क्योंकि आपके सिमुलेशन उत्पन्न नहीं हो सकता है अनुमान के इसकी सही मान के बजाय और अनुमान अनिवार्य रूप से एक निरंतर वितरण है। 0 1 एन 2 एसS01N2एस
whuber

1
@ शुभर हां, आप सही हैं, उत्कृष्ट अवलोकन हैं। मैं अभी भी इस बात पर अड़ा हुआ हूं कि यह एकरूप क्यों दिखता है
Cam.Davidson.Pilon

जवाबों:


11

टीएल; डीआर: बिन आकार बड़े होने पर सामान्य वितरण के मिश्रण एक समान दिख सकते हैं।

यह उत्तर @ व्हिबर के सैंपल कोड से उधार लिया गया था (जो मुझे लगा कि पहले एक त्रुटि थी, लेकिन पूर्वव्यापी में शायद एक संकेत था)।

जनसंख्या में अंतर्निहित अनुपात बराबर हैं a = b = 0.5:।
प्रत्येक समूह, ए और बी में 10000 सदस्य हैं N = 10000:।
हम एक अनुकार के 5000 प्रतिकृति का संचालन करने जा रहे हैं for i in range(5000)::।

दरअसल, हम जो कर रहे हैं वह एक का एक । 5000 पुनरावृत्तियों में से प्रत्येक में हम । एस मैं हूँ यू एल एक टी मैं एन यू एन डी आर एल वाई मैं एन जी रहा है मैं हूँ यू एल एक टी मैं एन पी आर मैं हूँ s i m u l l a t i o n uरोंमैंयूएलटीमैंnपीआरमैंरोंमैंयूएलटीमैंnयूnआरएलyमैंnजीरोंमैंयूएलटीमैंnपीआरमैंरोंमैंयूएलटीमैंnयूnआरएलyमैंnजी

के प्रत्येक चरण में हम एक के एक यादृच्छिक संख्या और बी है कि 'सफलताओं' (उर्फ परिवर्तित) बराबर अंतर्निहित अनुपात पहले परिभाषित दिया जाता है अनुकरण होगा: । मुख्य रूप से यह ए = 5000 और बी = 5000 का उत्पादन करेगा, लेकिन ए और बी सिम रन से सिम रन में भिन्न होते हैं और स्वतंत्र रूप से 5000 सिमुलेशन रन में वितरित किए जाते हैं और (लगभग) सामान्य रूप से (हम उस पर वापस आ जाएंगे)।रोंमैंयूएलटीमैंnपीआरमैंA = np.random.binomial(N, a); B = np.random.binomial(N, b)

चलो अब के माध्यम से कदम की एक एकल पुनरावृत्ति के लिए रों मैं हूँ यू एल एक टी मैं एन पी आर मैं हूँ ए और बी है, जिसमें सफलताओं की एक समान संख्या पर लिया गया (जैसा कि औसत मामला होगा)। S i m u l l a t i o n u । के प्रत्येक पुनरावृत्ति मेंरोंमैंयूएलटीमैंnयूnआरएलyमैंnजीरोंमैंयूएलटीमैंnपीआरमैं हम दिए जाएंगे, A और B, प्रत्येक समूह के लिए बीटा वितरण के यादृच्छिक संस्करण बनाएँ। तब हम उनकी तुलना करेगा और अगर पता लगाने के बी टी एक एक > बी टी एक बी , उपज एक सही या गलत (1 या 0)। के एक रन के अंत मेंरोंमैंहूँयूएलएकटीमैं एन यू एन डी आर एल वाई मैं एन जीरोंमैंयूएलटीमैंnयूnआरएलyमैंnजीबीटी>बीटीबीरोंमैंयूएलटीमैंnयूnआरएलyमैंnजी, हमने 15000 पुनरावृत्तियों को पूरा किया है और 15000 TRUE / FALSE मान हैं। इनमें से औसतन के अनुपात का (लगभग सामान्य) नमूना वितरण से एकल मान प्राप्त होगा ।बीटी>बीटीबी

अब सिवाय 5000 ए और बी मान चुनने के लिए जा रहा है। ए और बी शायद ही कभी वास्तव में बराबर होगा, लेकिन ए और बी सफलताओं की संख्या में विशिष्ट मतभेद ए और बी विशिष्ट के रूप में और बी एस की कुल नमूना आकार के अनुपात के उनके नमूने वितरण से अधिक खींचतान निकलेगा द्वारा dwarfed रहे बी टी एक एक > बी टी एक बी , लेकिन ए / बी वितरण के किनारों पर उन भी खींच लिया जाएगा।रोंमैंयूएलटीमैंnपीआरमैंबीटी>बीटीबी

तो, संक्षेप में क्या हम में कई सिम रन खींच के वितरण के नमूने का एक संयोजन है (नमूना एक के समान मूल्यों से बना वितरण से अधिक खींचतान के साथ ए और बी के संयोजन के लिए और बी ए और बी के असामान्य मूल्यों की तुलना में)। इसके परिणामस्वरूप सामान्य-ईश वितरण का मिश्रण होता है। जब आप उन्हें एक छोटे बिन आकार में जोड़ते हैं (जैसा कि आपके द्वारा उपयोग किए गए हिस्टोग्राम फ़ंक्शन के लिए डिफ़ॉल्ट है और सीधे आपके मूल कोड में निर्दिष्ट किया गया था), तो आप एक समान वितरण के साथ दिखने वाली चीज़ के साथ समाप्त होते हैं।बीटी>बीटीबी

विचार करें:

a = b = 0.5
N = 10
samples = [] #collects the values of S
for i in range(5000):
    assert a==b
    A = np.random.binomial(N, a); B = np.random.binomial(N, b)
    S = (beta.rvs(A+1, N-A+1, size=15000) > beta.rvs(B+1, N-B+1, size=15000)).mean() 
    samples.append(S)

P.hist(samples,1000)
P.show()

1
इसलिए मेरा और आपके कोड में अंतर है। मैं प्रत्येक लूप में ए और बी का नमूना देता हूं, आप इसे एक बार नमूना करते हैं और एस 5000 बार गणना करते हैं।
Cam.Davidson.Pilon

1
विसंगति आपके कॉल में निहित है rbinom, जो एक वेक्टर लौटाता है। rbetaअंदर की बाद की कॉल replicateवेक्टर की जाती है, इसलिए आंतरिक (आंतरिक) लूप उत्पन्न किए गए 15000 यादृच्छिक चर में से प्रत्येक के लिए एक अलग और बी का उपयोग कर रहा है (आपके बाद से अंतिम 5000 के लिए लपेटता है )। अधिक के लिए देखें । यह @ कैम के कोड से भिन्न होता है जिसमें 5000 नमूने ( ) लूप में से प्रत्येक के लिए सभी 15000 रैंडम-वैरेट कॉल्स में इस्तेमाल किया गया एक निश्चित और बी होता है । बीNSIM = 10000?rbetaबीreplicate
कार्डिनल

1
यहाँ उन उत्सुक लोगों के लिए आउटपुट है: imgur.com/ryvWbJO
Cam.Davidson.Pilon

1
केवल एक चीज जिसके बारे में मुझे पता है कि एक वैचारिक स्तर पर संभावित रूप से प्रासंगिक हैं, एक) परिणाम के अपेक्षित वितरण सममित हैं, बी) 1 का एक बिन आकार हमेशा समान होता है, सी) एक सममित वितरण के लिए 2 का एक बिन आकार यह भी हमेशा समान दिखाई देगा, घ) संभावित नमूने वितरण की संख्या जो कि एन, ई के साथ वृद्धि से खींची जा सकती है) एस के मान 0 या 1 पर ढेर नहीं हो सकते क्योंकि बीटा तब अपरिभाषित होता है जब किसी समूह में 0 सफलताएं हों। , और एफ) नमूने 0 और 1. के बीच प्रतिबंधित हैं
रसेलपियरसी

1
अकेले अवलोकन के एक मामले के रूप में हम देख सकते हैं कि नमूना वितरण के केंद्रक के बीच की दूरी कम हो जाती है क्योंकि नमूना वितरण के केंद्रक दूर चले जाते हैं ।5 (शायद ऊपर बिंदु f से संबंधित)। यह प्रभाव समूह ए और समूह के मामले में अधिक समान लगभग समान सफलताओं के लिए टिप्पणियों की उच्च आवृत्तियों के लिए प्रवृत्ति का मुकाबला करने के लिए जाता है। हालाँकि, एक गणितीय समाधान यह है कि ऐसा क्यों है या क्यों यह कुछ बिन आकार के लिए सामान्य वितरण का उत्पादन करना चाहिए मेरे क्षेत्र के पास कहीं भी नहीं है।
रुसलपिएरेस

16

जो चल रहा है उसके लिए कुछ अंतर्ज्ञान प्राप्त करने के लिए, हम बहुत बड़ा बनाने के लिए स्वतंत्र महसूस करते हैं और इसलिए ( 1 / एन ) व्यवहार को अनदेखा करते हैं और असममित प्रमेयों का शोषण करते हैं जो बीटा और द्विपद वितरण दोनों लगभग सामान्य हो जाते हैं। (कुछ परेशानी के साथ, यह सब कठोर बनाया जा सकता है।) जब हम ऐसा करते हैं, तो परिणाम विभिन्न मापदंडों के बीच एक विशिष्ट संबंध से निकलता है।एनहे(1/एन)


क्योंकि हम सामान्य सन्निकटन का उपयोग करने की योजना बनाते हैं, हम चर की अपेक्षाओं और भिन्नताओं पर ध्यान देंगे:

  • जैसा कि बिनोमियल वेरिएंट, एन और एन बी में पी एन और पी ( 1 - पी ) एन के संस्करण की उम्मीदें हैं । नतीजतन α = n एक / एन और β = n बी / एन की उम्मीदें हैं पी और विचरण पी ( 1 - पी ) / एन(एन,पी)nnबीपीएनपी(1-पी)एनα=n/एनβ=nबी/एनपीपी(1-पी)/एन

  • एक बीटा , P A में ( n A + 1 ) / ( N + 2 ) और ( n A + 1 ) ( N + 1 ) का विचरण है - एन ) / [ ( एन + ) ( एन + ३)(nA+1,N+1nA)PA(nA+1)/(N+2) । लगभग, हम पाते हैं कि पी की एक उम्मीद है(nA+1)(N+1nA)/[(N+2)2(N+3)]PA

    E(PA)=α+O(1/N)

    और का विचरण

    Var(PA)=α(1α)/N+O(1/N2),

    लिए समान परिणाम के साथ ।PB

हमें इसलिए के वितरण का अनुमान करते हैं और पी बी सामान्य के साथ ( α , α ( 1 - α ) / एन ) और सामान्य ( β , β ( 1 - β ) / एन ) वितरण (जहां दूसरा पैरामीटर निर्दिष्ट करता है जिनकी विचरण ) । पी - पी बी का वितरण लगभग सामान्य है; अर्थात्,PAPB(α,α(1α)/N)(β,β(1β)/N)PAPB

PAPBNormal(αβ,α(1α)+β(1β)N).

बहुत बड़े के लिए , अभिव्यक्ति α ( 1 - α ) + β ( 1 - β ) से पर्याप्त रूप से भिन्न नहीं होगा पी ( 1 - पी ) + पी ( 1 - पी ) = 2 पी ( 1 - पी ) बहुत कम के साथ छोड़कर संभाव्यता (एक और उपेक्षित O ( 1 / N ) शब्द)। तदनुसार, ly मानक सामान्य CDF होने दें,Nα(1α)+β(1β)p(1p)+p(1p)=2p(1p)O(1/N)Φ

Pr(PA>PB)=Pr(PAPB>0)Φ(αβ2p(1p)/N).

लेकिन चूंकि शून्य मतलब और विचरण है 2 पी ( 1 - पी ) / एन , जेड = α - βαβ2p(1p)/N, एक मानक सामान्य चर (कम से कम लगभग) है। Itsइसकीसंभावना अभिन्न परिवर्तन है; Φ(जेड)हैवर्दीZ=αβ2p(1p)/NΦΦ(Z)


1
आप के साथ I'mn जब तक ... तो आप दूसरी दिशा है कि मैं काफी का पालन नहीं किया बंद जाना। है Φ एक बार मानक सामान्य CDF के रूप में दो बार परिभाषित, और फिर बदलने संभावना अभिन्न रूप में? मुझे उम्मीद है कि आप इन चरणों के आसपास अपने विवरण का विस्तार कर सकते हैं और उन्हें प्रारंभिक कोड / समस्या से संबंधित कर सकते हैं। हो सकता है कि चारों ओर लूप वापस आ जाएं और यह निर्धारित करें कि कौन से विशिष्ट पैरामीटर समान परिणाम देते हैं। पी-पीबीएनआरएलΦ
रुसलपिएरेस

1
@rpierce (1) का अंतर लगभग सामान्य है क्योंकि P A और P B स्वतंत्र हैं और प्रत्येक लगभग सामान्य है। माध्य, माध्य का अंतर है और विचरण का योग है। (2) संभावना अभिन्न बदलना है CDF: यह किसी भी यादृच्छिक चर के लिए मामला है एक्स निरंतर वितरण के साथ एफ , कि एफ ( एक्स ) एक समान है। PAPBPAPBXFF(X)
whuber

1
ओह मुझे 1 मिला, यह उसके बाद सामान था जहां मैं खो गया। यह दिमागी रूप से गूंगा होगा, लेकिन CDF के समान क्यों है ? पीआर(पी>पीबी)
रुसलपिएरेस

1
@rpierce जो परिभाषा के बजाय सीधे अनुसरण करता है, लेकिन इसमें एक मामूली मोड़ है जिसमें सामान्य वितरण की समरूपता है। हम एक सामान्य variate साथ काम कर रहे की उम्मीद है करने के लिए मान लिया μ = α - β और विचरण σ 2 = 2 पी ( 1 - पी ) / एन । मानकीकरण एक्स , यह संभावना को फिर से लिखने के लिए स्वाभाविक है पीआर ( एक्स > 0 ) = पीआर ( (एक्स=पी-पीबीμ=α-βσ2=2पी(1-पी)/एनएक्स
पीआर(एक्स>0)=पीआर((एक्स-μ)/σ>(0-μ)/σ)=1-Φ(-μ/σ)=Φ(μ/σ)
whuber

3
@ यह बहुत अद्भुत है। आप एक अद्भुत शिक्षक हैं। मैं आपके और rpierce दोनों के उत्तर की सराहना करता हूं, फिर भी मैं उसे श्रेय दूंगा क्योंकि इसने हमारी समस्या को हल किया, और आपने दिखाया है कि व्यवहार क्यों होता है। Ty!
Cam.Davidson.Pilon
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.