द्विपद और बीटा वितरण के बीच संबंध


27

मैं एक सांख्यिकीविद् की तुलना में अधिक प्रोग्रामर हूं, इसलिए मुझे आशा है कि यह प्रश्न बहुत भोला नहीं है।

यह रैंडम समय पर सैंपलिंग प्रोग्राम के निष्पादन में होता है। अगर मैं N = 10 प्रोग्राम के राज्य के रैंडम-टाइम सैंपल लेता हूं, तो मैं फू को फंक्शन पर देख सकता हूं, उदाहरण के लिए, मैं उन नमूनों में से 3 =। मुझे उस चीज़ में दिलचस्पी है जो मुझे उस समय के वास्तविक अंश F के बारे में बताती है जो फू निष्पादन में है।

मैं समझता हूं कि मैं द्विपदीय रूप से F * N के साथ वितरित किया गया हूं। मुझे यह भी पता है कि, I और N को देखते हुए, F एक बीटा वितरण का अनुसरण करता है। वास्तव में मैंने प्रोग्राम को उन दो वितरणों के बीच संबंध द्वारा सत्यापित किया है, जो है

cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1

समस्या यह है कि मुझे रिश्ते के लिए सहज ज्ञान नहीं है। मैं "चित्र" नहीं कर सकता कि यह क्यों काम करता है।

संपादित करें: सभी उत्तर चुनौतीपूर्ण थे, विशेष रूप से @ व्ह्यूबर, जिसे मुझे अभी भी टटोलने की जरूरत है, लेकिन ऑर्डर के आंकड़े लाना बहुत मददगार था। फिर भी मुझे एहसास हुआ कि मुझे एक और बुनियादी सवाल पूछना चाहिए था: I और N को देखते हुए, F के लिए वितरण क्या है? सभी ने बताया कि यह बीटा है, जो मुझे पता था। मैं अंत में विकिपीडिया ( पूर्ववर्ती समझौता ) से यह पता लगाता हूं कि यह प्रतीत होता है Beta(I+1, N-I+1)। एक कार्यक्रम के साथ इसकी खोज करने के बाद, यह सही उत्तर प्रतीत होता है। इसलिए, मैं जानना चाहूंगा कि क्या मैं गलत हूं। और, मैं अभी भी ऊपर दिखाए गए दो cdfs के बीच के संबंध के बारे में उलझन में हूं, वे 1 को क्यों राशि देते हैं, और यदि उनके पास भी ऐसा कुछ है जिसका मैं वास्तव में जानना चाहता हूं।


यदि "क्या आप वास्तव में जानना चाहते थे" "फू का निष्पादन में वास्तविक समय है", तो आप एक द्विपद विश्वास अंतराल या (बायेसियन) द्विपद विश्वसनीय विश्वसनीय अंतराल के बारे में पूछ रहे हैं।
व्हिबर

@whuber: मैंने 3 दशकों से अधिक समय तक प्रदर्शन ट्यूनिंग के यादृच्छिक-ठहराव विधि का उपयोग किया है, और कुछ अन्य लोगों ने भी इसे खोज लिया है। मैंने लोगों को बताया है कि यदि कुछ स्थिति 2 या अधिक यादृच्छिक-समय के नमूनों पर सत्य है, तो इसे हटाने से समय का एक अच्छा अंश बच जाएगा। कितना अच्छा अंश यह है कि मैंने इसके बारे में स्पष्ट होने की कोशिश की है, यह मानते हुए कि हम पहले से बायेसियन नहीं जानते हैं। यहाँ सामान्य लौ है: stackoverflow.com/questions/375913/… और stackoverflow.com/questions/1777556/alternatives-to-gprof/…
माइक डनलवी

1
अछा सुझाव। सांख्यिकीय धारणा यह है कि रुकावट निष्पादन राज्य से स्वतंत्र है, जो एक उचित परिकल्पना है। एक द्विपद आत्मविश्वास अंतराल अनिश्चितता का प्रतिनिधित्व करने के लिए उपयोग करने के लिए एक अच्छा उपकरण है। (यह एक आंखें खोलने वाला भी हो सकता है: आपकी 3/10 स्थिति में, वास्तविक संभावना के लिए एक सममित दो-तरफा 95% CI [6.7%, 65.2%] है। 2/10 स्थिति में अंतराल 2.5 है। ।!%, 55.6%] ये विस्तृत सीमा नहीं है यहां तक कि 2/3 के साथ, निचली सीमा अभी भी कम से कम 10% है सबक यहाँ है कि कुछ काफी दुर्लभ दो बार हो सकता है
whuber

@ शुभकर्ता: धन्यवाद। आप सही हे। कुछ अधिक उपयोगी अपेक्षित मूल्य है। जहां तक ​​पुजारी जाते हैं, मैं इंगित करता हूं कि यदि आप केवल एक बार कुछ देखते हैं, तो यह आपको बहुत कुछ नहीं बताता है जब तक कि आपको पता हो कि कार्यक्रम अनंत (या अत्यधिक लंबे) लूप में है।
माइक डनलैवी

मुझे लगता है कि सभी उत्तर और टिप्पणियाँ निश्चित रूप से ज्ञानवर्धक और सही हैं, लेकिन किसी ने भी वास्तव में उस दिलचस्प समानता को नहीं छुआ जो @MikeDunlavey ने अपने मूल पोस्ट में डाली थी। यह समानता बीटा विकिपीडिया en.wikipedia.org/wiki/Beta_function#Incomplete_beta_function पर पाई जा सकती है, लेकिन ऐसा क्यों है, इसका कोई विवरण नहीं दिया गया है, इसका सिर्फ एक संपत्ति के रूप में उल्लेख किया गया है।
bdeonovic

जवाबों:


27

आदेश आंकड़ों पर विचार करें के n + 1 स्वतंत्र एक समान वितरण से खींचता है। क्योंकि ऑर्डर के आंकड़ों में बीटा डिस्ट्रीब्यूशन होता है , इसलिए मौका है कि x [ k ] पी से अधिक नहीं है, बीटा इंटीग्रल द्वारा दिया गया हैx[0]x[1]x[n]n+1x[k]p

Pr[x[k]p]=1B(k+1,nk+1)0pxk(1x)nkdx.

(क्यों? यह है यहाँ एक गैर कठोर लेकिन यादगार प्रदर्शन है। संभावना है कि के बीच झूठ और संभावना है कि से बाहर है वर्दी मूल्यों, उनमें से बीच झूठ और , उनमें से कम से कम एक और बीच स्थित है , और शेष और बीच स्थित है । infinitesimal में पहले क्रम में हमें केवल उस मामले पर विचार करने की आवश्यकता है, जहाँ वास्तव में एक मान (अर्थात, ही) और बीच स्थित है और इसलिएx[k]pp+dpn+1k0ppp+dpp+dp1dpx[k]pp+dpnk मान से अधिक है । क्योंकि सभी मूल्य स्वतंत्र और समान हैं, यह संभावना समानुपाती है । में पहले ऑर्डर करने के लिए यह बराबर होता है , ठीक बीटा वितरण के इंटीग्रैंड। इस शब्द को को इस तर्क से सीधे गणना किया जा सकता है क्योंकि बहुराष्ट्रीय गुणांक _ या परोक्ष रूप से लिया गया है। अभिन्न का सामान्यीकरण।)p+dppk(dp)(1pdp)nkdppk(1p)nkdp1B(k+1,nk+1)(n+1k,1,nk)

परिभाषा के अनुसार, घटना यह है कि मान से अधिक नहीं है । समान रूप से, मानों का कम से कम से अधिक नहीं है : यह सरल (और मुझे आशा है कि) मुखरता आपके द्वारा खोजे गए अंतर्ज्ञान को प्रदान करता है। समकक्ष कथन की संभावना द्विपद वितरण द्वारा दी गई है,x[k]pk+1stp k+1p

Pr[at least k+1 of the xip]=j=k+1n+1(n+1j)pj(1p)n+1j.

सारांश में , बीटा इंटीग्रल किसी घटना की गणना को गणनाओं की एक श्रृंखला में तोड़ता है: सीमा में कम से कम मान प्राप्त करना , जिसकी संभावना हम सामान्यतः एक द्विपद cdf के साथ गणना करेंगे, पारस्परिक रूप से टूट गया है अनन्य मामले जहां बिल्कुल मान सीमा और 1 मान सभी संभावित , लिए श्रेणी में है , और एक असीम लंबाई है। ऐसी सभी "विंडोज़" संक्षेपण - यह है, एकीकृत - द्विपद cdf के रूप में एक ही संभावना देना चाहिए।k+1[0,p] k[0,x][x,x+dx]x0x<pdx[x,x+dx]

वैकल्पिक शब्द


मैं प्रयास की सराहना करता हूं। मैं वास्तव में इसका अध्ययन करने जा रहा हूं क्योंकि यह मेरी "देशी जीभ" नहीं है। इसके अलावा, मैं बहुत सारे डॉलर के संकेत और स्वरूपण सामान देख रहा हूं। क्या ऐसा कुछ है जो मुझे नहीं पता है कि यह वास्तविक गणित जैसा दिखता है?
माइक डनलैवी

क्या हुआ? अचानक गणित दिखा, और यहाँ टाइप करने से वास्तविक गति धीमी हो गई।
बजे माइक डनलैवी

@Mike देखें meta.stats.stackexchange.com/q/218/919
whuber

यदि आपने ध्यान दिया तो मैंने प्रश्न को संशोधित कर दिया। धन्यवाद।
माइक डनलैवी

1
थोड़ी देर हो गई है, लेकिन मुझे आखिरकार आपके बैठने और अपने तर्क को फिर से बनाने का समय मिल गया। कुंजी "बहुराष्ट्रीय गुणांक" थी। मैंने इसे सादे पुराने द्विपद गुणांक का उपयोग करके पता लगाने की कोशिश की थी और मैं पूरी तरह से तैयार हो गया था। एक अच्छा जवाब के लिए फिर से धन्यवाद।
माइक डनलवेई

12

के एक समारोह के रूप में द्विपद की पीडीएफ में देखो : और के एक समारोह के रूप में बीटा की पीडीएफ : आप शायद देख सकते हैं और लिए उपयुक्त (पूर्णांक) विकल्प के साथ ये समान हैं। जहाँ तक मैं बता सकता हूँ, कि इस संबंध में सब कुछ है: जिस तरह से द्विपदीय पीडीएफ में प्रवेश करता है, उसे बीटा वितरण कहा जाता है।x

f(x)=(nx)px(1p)nx
p
g(p)=Γ(a+b)Γ(a)Γ(b)pa1(1p)b1
abp

मुझे पता है कि वे लगभग समान दिखते हैं, लेकिन अगर मैं n के लिए y स्थानापन्न करता हूं, और अगर मैं बीटा -1 के लिए बीटा पीडीएफ और स्थानापन्न x लेता हूं और b-1 के लिए y तो मुझे (x + y + 1) का एक अतिरिक्त कारक मिलता है, या एन + १। यानी (x + y + 1)! / x! / y! * p ^ x * q ^ y। यह मुझे फेंकने के लिए पर्याप्त लगता है।
माइक डनलैवी

1
हो सकता है कि कोई व्यक्ति पूरी प्रतिक्रिया के साथ झंकार देगा, लेकिन "सहज" स्पष्टीकरण में हम हमेशा स्थिरांक (जैसे ) को हाथ से दूर कर सकते हैं जो कि ब्याज के चर ( और ) पर निर्भर नहीं करते हैं, लेकिन आवश्यक हैं pdf को जोड़ने / एकीकृत करने के लिए 1. "समानता" संकेतों को "आनुपातिक" संकेतों के साथ बदलने के लिए स्वतंत्र महसूस करें। n+1xp
ऐकिओ

अच्छी बात। मुझे लगता है कि मैं एक समझ के करीब पहुंच रहा हूं। मैं अभी भी यह कहने की कोशिश कर रहा हूं कि एक्स आपको पी डिस्ट्रीब्यूशन के बारे में क्या बताता है, और उन दो सीडीएफ 1 को क्यों?
माइक डनलैवी

1
मैं "सहज" स्पष्टीकरण का एक अलग दृष्टिकोण लेता हूं। कुछ मामलों में हम बहुत ज्यादा स्थिरांक के बारे में परवाह नहीं है, लेकिन इस मामले में जड़ इस मामले के देखने के लिए क्यों एक n + 1 में प्रकट होता है और नहीं एक n है। यदि आप यह नहीं समझते हैं कि तब आपका "अंतर्ज्ञान" गलत है।
whuber

यदि आपने ध्यान दिया तो मैंने प्रश्न को संशोधित कर दिया। धन्यवाद।
माइक डनलैवी

5

जैसा कि आपने उल्लेख किया, बीटा वितरण परीक्षण संभाव्यता पैरामीटर वितरण का वर्णन करता है, जबकि द्विपद वितरण परिणाम पैरामीटर के वितरण का वर्णन करता है । अपने प्रश्न को फिर से लिखते हुए, आपने जो पूछा, वह अर्थात, अवलोकन की अपेक्षा से अधिक अवलोकन और एक से अधिक होने की संभावना वही है जो संभावना की है। अवलोकन प्लस एक अवलोकन की अपेक्षा से अधिक है।FI

P(Fi+1n)+P(Ifn1)=1
P(Fni+1)+P(I+1fn)=1
P(Fni+1)=P(fn<I+1)

मैं मानता हूं कि यह समस्या के मूल सूत्रीकरण में मदद नहीं कर सकता है, लेकिन शायद यह कम से कम यह देखने में मदद करता है कि कैसे दो वितरण अलग-अलग मापदंडों के व्यवहार का वर्णन करने के लिए दोहराया बर्नौली परीक्षणों के एक ही अंतर्निहित मॉडल का उपयोग करते हैं।


मैं इस पर आपके लेने की सराहना करता हूं। सभी उत्तर मुझे प्रश्न के बारे में सोचने में मदद कर रहे हैं और संभवतः बेहतर समझ रहे हैं कि मैं क्या पूछ रहा हूं।
माइक डनलैवी

यदि आपने ध्यान दिया तो मैंने प्रश्न को संशोधित कर दिया। धन्यवाद।
माइक डनलैवी

1
आपके पुनरीक्षण के बारे में: हाँ, , जब तक कि आपके नमूने अंतराल लंबे होते हैं कि प्रत्येक अवलोकन स्वतंत्र और समान रूप से वितरित किया जाता है। ध्यान दें कि यदि आप इसके बारे में बायेसियन बनना चाहते हैं और वास्तविक अनुपात की अपेक्षा के लिए एक गैर-समान वितरण को निर्दिष्ट करें, तो आप दोनों मापदंडों में कुछ और जोड़ सकते हैं। FBeta(I+1,NI+1)
sesqu

@ysqu, क्या आपका उत्तर किसी तरह मेरे प्रश्न से संबंधित हो सकता है: आंकड़े . stackexchange.com/questions/147978/… ? मैं इस पर आपके विचारों की सराहना करूंगा।
विसेंट

1

बायेसियन भूमि में, बीटा वितरण द्विपद वितरण के पी पैरामीटर के लिए पहले संयुग्म है।


2
हां, लेकिन यह मामला क्यों है?
vonjd

1

अन्य उत्तरों पर टिप्पणी नहीं कर सकता, इसलिए मुझे अपना उत्तर बनाना होगा।

पोस्टीरियर = सी * लाइकलीहुड * पूर्व (सी एक स्थिरांक है जो पोस्टीरियर को 1 से एकीकृत करता है)

एक मॉडल को देखते हुए जो संभावना के लिए द्विपद वितरण का उपयोग करता है, और पूर्व के लिए बीटा वितरण। दो का उत्पाद जो पोस्टीरियर उत्पन्न करता है वह भी एक बीटा वितरण है। चूंकि प्रायर और पोस्टीरियर दोनों बीटा हैं, और इस प्रकार वे संयुग्म वितरण हैं । पूर्व (एक बीटा) संभावना (एक द्विपद) के लिए पहले संयुग्म कहा जाता है । उदाहरण के लिए, यदि आप एक बीटा को एक सामान्य से गुणा करते हैं, तो पोस्टीरियर अब बीटा नहीं है। सारांश में, बीटा और द्विपद दो वितरण हैं जो अक्सर बेइज़ियन अनुमान में उपयोग किए जाते हैं। बीटा द्विपद का पूर्ववर्ती संयुग्म है, लेकिन दो वितरण अन्य के उपसमूह या सुपरसेट नहीं हैं।

बायेसियन इंट्रेंस का मुख्य विचार यह है कि हम पैरामीटर पी को एक यादृच्छिक चर के रूप में मान रहे हैं, जो [0,1] से लेकर होता है, जो कि बार-बार आने वाले दृष्टिकोण के विपरीत होता है, जहां हम पैरामीटर पी को निर्धारित मान रहे हैं। यदि आप बीटा वितरण के गुणों को करीब से देखते हैं, तो आप देखेंगे कि इसका माड और मोड पूरी तरह से पैरामीटर पी के लिए और अप्रासंगिक द्वारा निर्धारित किया जाता हैαβ । यह, इसके लचीलेपन के साथ युग्मित है, यही कारण है कि बीटा को आमतौर पर एक प्राथमिकता के रूप में उपयोग किया जाता है।


1

सारांश: यह अक्सर कहा जाता है कि बीटा वितरण वितरण पर एक वितरण है! लेकिन साधन क्या है?

यह अनिवार्य रूप का मतलब है कि आप ठीक कर सकता है और के बारे में सोच के एक समारोह के रूप में । नीचे दी गई गणना क्या कहती है कि जब आप से तक करते हैं तो से तक बढ़ जाता है । प्रत्येक पर बढ़ती दर ठीक है कि कम से ।n,kP[Bin(n,p)k]pP[Bin(n,p)k]01p01pβ(k,nk+1)p

यहाँ छवि विवरण दर्ज करें


चलो नमूने के साथ एक द्विपद यादृच्छिक चर को निरूपित करते हैं और सफलता की संभावना । हमारे पास मूल बीजगणित का उपयोग करनाBin(n,p)np

ddpP[Bin(n,p)=i]=n(P[Bin(n1,p)=i1]P[Bin(n1,p)=i]).

इसका कुछ अच्छा संयोजन प्रमाण भी है, इसे एक अभ्यास के रूप में सोचें!

तो हमारे पास:

ddpP[Bin(n,p)k]=ddpi=knP[Bin(n,p)=i]=n(i=knP[Bin(n1,p)=i1]P[Bin(n1,p)=i])
जो एक दूरबीन श्रृंखला है और इसे सरल बनाया जा सकता है

ddpP[Bin(n,p)k]=nP[Bin(n1,p)=k1]=n!(k1)!(nk)!pk1(1p)nk=β(k,nk+1).


टिप्पणी इस पर प्लॉट के एक इंटरैक्टिव संस्करण को देखने के लिए । आप नोटबुक डाउनलोड कर सकते हैं या केवल बाइंडर लिंक का उपयोग कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.