द्विपद यादृच्छिक चर के लिए भविष्यवाणी अंतराल


14

द्विपद यादृच्छिक चर के लिए एक भविष्यवाणी अंतराल के लिए सूत्र (अनुमानित या सटीक) क्या है?

मान लें , और हम ( से खींचा हुआ ) का निरीक्षण करते हैं । जाना जाता है।YBinom(n,p)yYn

हमारा लक्ष्य से एक नए ड्रॉ के लिए 95% भविष्यवाणी अंतराल प्राप्त करना है ।Y

बिंदु अनुमान , जहां । लिए एक आत्मविश्वास अंतराल सीधा है, लेकिन मैं लिए पूर्वानुमान अंतराल के लिए एक सूत्र नहीं खोज सकता । यदि हम ( बजाय) जानते थे , तो 95% की भविष्यवाणी के अंतराल में एक द्विपद की मात्राओं का पता लगाना शामिल है। वहाँ कुछ स्पष्ट है मैं देख रहा हूँ?np^p^=ynp^Ypp^


1
देखें कि भविष्य कहनेवाला अनुमान लगाने के लिए कौन से गैर-बायेसियन तरीके हैं? । इस मामले में पिवोट्स का उपयोग करने का तरीका उपलब्ध नहीं है (मुझे नहीं लगता) लेकिन आप भविष्यवाणियों में से किसी एक का उपयोग कर सकते हैं। या बेशक, एक बायेसियन दृष्टिकोण।
Scortchi - को पुनः स्थापित मोनिका

1
हाय दोस्तों, मैं उन चिंताओं को दूर करने के लिए एक पल लेना चाहूंगा जो उठाए गए थे। - पी के लिए आत्मविश्वास के बारे में: मैं उसके लिए दिलचस्पी नहीं रखता हूं। - वितरण के 95% होने की भविष्यवाणियों के बारे में: हाँ, यह वही है जो भविष्यवाणी अंतराल के संदर्भ की परवाह किए बिना है (प्रतिगमन में आपको सामान्य त्रुटियों को मानना ​​होगा, जहां आत्मविश्वास अंतराल सीएलटी पर निर्भर करते हैं - हां, सिर की संख्या की भविष्यवाणी करने का उदाहरण एक सिक्का फ्लिप सही है। इस समस्या को कठिन बना देता है कि अब हम "पी" नहीं हैं, जूट का एक अनुमान है।
स्टेटसेकर

3
@Addison जी हैन और डब्ल्यू। Meeker द्वारा पुस्तक सांख्यिकीय अंतराल पढ़ें। वे विश्वास अंतराल, भविष्यवाणी अंतराल, सहिष्णुता अंतराल और बायेसियन विश्वसनीय अंतराल के बीच अंतर की व्याख्या करते हैं। एक 95% पूर्वानुमान अंतराल में वितरण का 95% शामिल नहीं है। यह वही करता है जो सबसे अधिक बार किया जाता है। यदि आप बार-बार बी (एन, पी) से नमूना लेते हैं और पी के लिए 95% पूर्वानुमान अंतराल का उत्पादन करने के लिए हर बार एक ही विधि का उपयोग करते हैं तो 95% पूर्वानुमान अंतराल में आप पी का सही मूल्य शामिल करेंगे। यदि आप वितरण का 95% कवर करना चाहते हैं तो एक सहिष्णुता अंतराल का निर्माण करते हैं।
माइकल आर। चेर्निक

सहिष्णुता अंतराल वितरण का एक प्रतिशत कवर करते हैं। वितरण के 90% के लिए 95% सहिष्णुता अंतराल के लिए आप फिर से प्रक्रिया को कई बार दोहराते हैं और हर बार अंतराल उत्पन्न करने के लिए एक ही विधि का उपयोग करते हैं तो लगभग 95% मामलों में वितरण का कम से कम 90% अंतराल में गिर जाएगा और वितरण का 90% से कम समय का 5% अंतराल में निहित होगा।
माइकल आर। चेरनिक

जवाबों:


24

ठीक है, चलो यह कोशिश करते हैं। मैं दो उत्तर दूंगा - बायेसियन एक, जो कि मेरी राय में सरल और स्वाभाविक है, और संभावित लगातार लोगों में से एक है।

बायेसियन समाधान

हम , i, e, पर एक बीटा से पहले मान लेते हैं, क्योंकि बीटा-द्विपद मॉडल संयुग्मित है, जिसका अर्थ है कि पीछे वितरण भी पैरामीटर साथ एक बीटा वितरण है , (मैं बजाय परीक्षणों में सफलताओं की संख्या को दर्शाने के लिए का उपयोग कर रहा हूं )। इस प्रकार, अनुमान बहुत सरल है। अब, यदि आपके पास के संभावित मूल्यों पर कुछ पूर्व ज्ञान है , तो आप इसका उपयोग अपने बीटा को परिभाषित करने के लिए और के मानों को सेट करने के लिए कर सकते हैं, अन्यथा, आप पहले से एक समान (गैर-विरूपक) मान सकते हैं।पी ~ बी टी एक ( अल्फा , बीटा ) अल्फा = अल्फा + कश्मीर , बीटा = बीटा + n - कश्मीर कश्मीर एन वाई पी अल्फा बीटा अल्फा = बीटा = 1ppBeta(α,β)α^=α+k,β^=β+nkknypαβα=β=1, या अन्य noninformative priors (उदाहरण के लिए यहां देखें )। किसी भी मामले में, आपका पोस्टीरियर है

Pr(p|n,k)=Beta(α+k,β+nk)

बायेसियन इंट्रैक्शन में, वह सब मायने रखता है जो पोस्टीरियर प्रोबेबिलिटी है, जिसका अर्थ है कि एक बार जब आप यह जान लेते हैं, तो आप अपने मॉडल में अन्य सभी मात्राओं के लिए इंफ़ेक्शन बना सकते हैं। आप : विशेष रूप से, नए परिणाम , जहां आवश्यक रूप से बराबर नहीं है चाहते हैं । विशेष रूप से, प्रत्येक , हम अगले परीक्षणों में वास्तव में सफलताओं की संभावना की गणना करना चाहते हैं , यह देखते हुए कि हमें पूर्ववर्ती परीक्षणों में सफलताएं मिलीं ; पिछले भविष्य कहनेवाला बड़े पैमाने पर कार्य:y = y 1 , , y m m n j = 0 , , m j m k k nyy=y1,,ymmnj=0,,mjmkn

Pr(j|m,y)=Pr(j|m,n,k)=01Pr(j,p|m,n,k)dp=01Pr(j|p,m,n,k)Pr(p|n,k)dp

हालांकि, लिए हमारे द्विपद मॉडल का अर्थ है कि, सशर्त रूप से एक निश्चित मूल्य वाले पर , परीक्षणों में सफलताओं की संभावना पिछले परिणामों पर निर्भर नहीं करती है: यह बस हैपी जे एमYpjm

f(j|m,p)=(jm)pj(1p)j

इस प्रकार अभिव्यक्ति बन जाती है

Pr(j|m,n,k)=01(jm)pj(1p)jPr(p|n,k)dp=01(jm)pj(1p)jBeta(α+k,β+nk)dp

इस अभिन्न का परिणाम एक प्रसिद्ध वितरण है जिसे बीटा-बिनोमियल वितरण कहा जाता है: मार्ग को छोड़ देना, हमें भयानक अभिव्यक्ति मिलती है

Pr(j|m,n,k)=m!j!(mj)!Γ(α+β+n)Γ(α+k)Γ(β+nk)Γ(α+k+j)Γ(β+n+mkj)Γ(α+β+n+m)

लिए हमारा बिंदु अनुमान , द्विघात हानि को देखते हुए, निश्चित रूप से इस वितरण का मतलब है,j

μ=m(α+k)(α+β+n)

अब, चलो एक भविष्यवाणी अंतराल देखें। चूंकि यह एक असतत वितरण है, इसलिए हमारे पास लिए एक बंद फ़ॉर्म अभिव्यक्ति नहीं है , जैसे कि । कारण यह है कि, आप कैसे एक मात्रात्मक को परिभाषित करते हैं, इस बात पर निर्भर करता है कि एक असतत वितरण के लिए क्वांटाइल फ़ंक्शन या तो एक फ़ंक्शन नहीं है या एक असंगत फ़ंक्शन है। लेकिन यह एक बड़ी समस्या नहीं है: छोटे , आप केवल नीचे लिख सकते हैं संभाव्यता और यहाँ से ऐसा पाते हैं[j1,j2]Pr(j1jj2)=0.95mmPr(j=0|m,n,k),Pr(j1|m,n,k),,Pr(jm1|m,n,k)j1,j2

Pr(j1jj2)=Pr(jj2|m,n,k)Pr(j<j1|m,n,k)0.95

बेशक, आपको एक से अधिक जोड़े मिलेंगे, इसलिए आप आदर्श रूप से सबसे छोटे ऊपर वाला संतुष्ट हो। ध्यान दें कि[j1,j2]

Pr(j=0|m,n,k)=p0,Pr(j1|m,n,k)=p1,,Pr(jm1|m,n,k)=pm1

बीटा-बिनोमियल वितरण के सीएमएफ (संचयी द्रव्यमान समारोह) के मान हैं, और जैसे कि एक बंद फॉर्म अभिव्यक्ति है , लेकिन यह सामान्यीकृत हाइपरजोमेट्रिक फ़ंक्शन के संदर्भ में है और इस प्रकार काफी जटिल है। मैं केवल R पैकेज स्थापित करना चाहता हूं extraDistrऔर pbbinomबीटा-द्विपद वितरण के CMF की गणना करना चाहता हूं । विशेष रूप से, यदि आप सभी संभावित गणना एक बार में करना चाहते हैं, तो लिखें:p0,,pm1

library(extraDistr)  
jvec <- seq(0, m-1, by = 1) 
probs <- pbbinom(jvec, m, alpha = alpha + k, beta = beta + n - k)

कहां alphaऔर betaआपके बीटा के मापदंडों के मान हैं पूर्व, यानी, और (इस प्रकार 1 यदि आप से पहले एक समान का उपयोग कर रहे हैं )। यदि यह बीटा-द्विपद वितरण के लिए एक मात्रात्मक कार्य प्रदान करता है, तो निश्चित रूप से यह बहुत सरल होगा, लेकिन दुर्भाग्य से यह नहीं है।αβp

बायेसियन समाधान के साथ व्यावहारिक उदाहरण

चलो , (इस प्रकार हमने शुरू में 100 परीक्षणों में 70 सफलताओं को देखा)। हम अगले परीक्षणों में की सफलताओं की संख्या के लिए एक बिंदु अनुमान और एक 95% -prediction अंतराल चाहते हैं । फिरn=100k=70jm=20

n <- 100
k <- 70
m <- 20
alpha <- 1
beta  <- 1

जहां मैंने से पहले एक समान मान लिया था : आपके विशिष्ट आवेदन के लिए पूर्व ज्ञान के आधार पर, यह एक अच्छा पूर्व हो सकता है या नहीं हो सकता है। इस प्रकारp

bayesian_point_estimate <- m * (alpha + k)/(alpha + beta + n) #13.92157

स्पष्ट रूप से लिए एक गैर-पूर्णांक अनुमान का कोई मतलब नहीं है, इसलिए हम केवल निकटतम पूर्णांक (14) के लिए गोल कर सकते हैं। फिर, भविष्यवाणी अंतराल के लिए:j

jvec <- seq(0, m-1, by = 1)
library(extraDistr)
probabilities <- pbbinom(jvec, m, alpha = alpha + k, beta = beta + n - k)

संभावनाएं हैं

> probabilities
 [1] 1.335244e-09 3.925617e-08 5.686014e-07 5.398876e-06
 [5] 3.772061e-05 2.063557e-04 9.183707e-04 3.410423e-03
 [9] 1.075618e-02 2.917888e-02 6.872028e-02 1.415124e-01
[13] 2.563000e-01 4.105894e-01 5.857286e-01 7.511380e-01
[17] 8.781487e-01 9.546188e-01 9.886056e-01 9.985556e-01

एक समान-पूंछ संभाव्यता अंतराल के लिए, हम सबसे छोटा चाहते हैं जैसे कि और सबसे बड़ा ऐसा कि । इस तरह, हमारे पास होगाj2Pr(jj2|m,n,k)0.975j1Pr(j<j1|m,n,k)=Pr(jj11|m,n,k)0.025

Pr(j1jj2|m,n,k)=Pr(jj2|m,n,k)Pr(j<j1|m,n,k)0.9750.025=0.95

इस प्रकार, उपरोक्त संभावनाओं को देखकर, हम देखते हैं कि और । इस बायेसियन पूर्वानुमान अंतराल की संभावना 0.9778494 है, जो 0.95 से बड़ा है। हम ऐसे छोटे अंतराल पा सकते हैं जैसे , लेकिन उस स्थिति में पूंछ की संभावनाओं के लिए कम से कम दो असमानताओं में से एक संतुष्ट नहीं होगी।j2=18j1=9Pr(j1jj2|m,n,k)0.95

बार-बार समाधान

मैं 2011 में कृष्णमूर्ति और पेंग के उपचार का पालन करूंगा । आज्ञा दें और स्वतंत्र रूप से Binominally वितरित किए जाएं। हम अवलोकन के आधार पर, लिए पूर्वानुमान अंतराल चाहते हैं । दूसरे शब्दों में हम ऐसे देखते हैं:YBinom(m,p)XBinom(n,p)12αYXI=[L(X;n,m,α),U(X;n,m,α)]

PrX,Y(YI)=PrX,Y(L(X;n,m,α)YU(X;n,m,α)]12α

" " इस तथ्य के कारण है कि हम असतत यादृच्छिक चर के साथ काम कर रहे हैं, और इस प्रकार हम सटीक कवरेज प्राप्त करने की उम्मीद नहीं कर सकते हैं ... लेकिन हम एक अंतराल की तलाश कर सकते हैं जिसमें हमेशा कम से कम होता है नाममात्र कवरेज, इस प्रकार एक रूढ़िवादी अंतराल। अब, यह साबित किया जा सकता है कि सशर्त वितरण दी नमूना आकार के साथ hypergeometric है आबादी में सफलताओं की, संख्या और जनसंख्या के आकार । इस प्रकार सशर्त pmf है12αXX+Y=k+j=ssnn+m

Pr(X=k|X+Y=s,n,n+m)=(nk)(msk)(m+ns)

की सशर्त CDF दी इस प्रकार हैXX+Y=s

Pr(Xk|s,n,n+m)=H(k;s,n,n+m)=i=0k(ni)(msi)(m+ns)

इस CDF के बारे में पहली बड़ी बात यह है कि यह पर निर्भर नहीं करता है , जिसे हम नहीं जानते हैं। दूसरी बड़ी बात यह है कि यह हमारे PI को आसानी से खोजने की अनुमति देता है: तथ्य की बात के रूप में, अगर हमने X का मान देखा , तो लोअर प्रिडिक्शन लिमिट सबसे छोटी पूर्णांक जैसे किpk1αL

Pr(Xk|k+L,n,n+m)=1H(k1;k+L,n,n+m)>α

तदनुसार, ऊपरी भविष्यवाणी सीमा सबसे बड़ा पूर्णांक है जैसे कि1α

Pr(Xk|k+U,n,n+m)=H(k;k+U,n,n+m)>α

इस प्रकार, कम से कम के कवरेज के के लिए एक भविष्यवाणी अंतराल है । ध्यान दें कि जब 0 या 1 के करीब होता है, तो यह अंतराल बड़े , , यानी के लिए भी रूढ़िवादी होता है , इसका कवरेज से काफी बड़ा होता है ।[L,U]Y12αpnm12α

आवृत्तिवादी समाधान के साथ व्यावहारिक उदाहरण

पहले की तरह ही सेटिंग, लेकिन हमें और निर्दिष्ट करने की आवश्यकता नहीं है (फ़्रीक्वेंटिस्ट फ्रेमवर्क में कोई पुजारी नहीं हैं):αβ

n <- 100
k <- 70
m <- 20

बिंदु अनुमान अब सफलताओं की संभावना के लिए MLE अनुमान का उपयोग करके प्राप्त किया गया है, , जो बदले में परीक्षणों में सफलताओं की संख्या के लिए निम्नलिखित अनुमान की ओर जाता है :p^=knm

frequentist_point_estimate <- m * k/n #14

भविष्यवाणी अंतराल के लिए, प्रक्रिया थोड़ी अलग है। हम सबसे बड़े जैसे कि , इस प्रकार उपरोक्त अभिव्यक्ति की गणना करते हैं। में सभी के लिए :UPr(Xk|k+U,n,n+m)=H(k;k+U,n,n+m)>αU[0,m]

jvec <- seq(0, m, by = 1)
probabilities <- phyper(k,n,m,k+jvec)

हम देख सकते हैं कि सबसे बड़ा ऐसा है जिसकी संभावना अभी भी 0.025 से बड़ी हैU

jvec[which.min(probabilities > 0.025) - 1] # 18

बायेशियन दृष्टिकोण के लिए भी। निम्न भविष्यवाणी बाध्य , सबसे छोटा पूर्णांक है जैसे कि , इस प्रकारLPr(Xk|k+L,n,n+m)=1H(k1;k+L,n,n+m)>α

probabilities <- 1-phyper(k-1,n,m,k+jvec)
jvec[which.max(probabilities > 0.025) - 1] # 8

इस प्रकार हमारा लगातार "सटीक" पूर्वानुमान अंतराल है ।[L,U]=[8,18]

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.