अद्यतन : कुछ वर्षों के लाभ के साथ, मैंने एक समान प्रश्न के जवाब में अनिवार्य रूप से एक ही सामग्री का अधिक संक्षिप्त उपचार किया है।
कॉन्फिडेंस रीजन कैसे बनाएं
हमें विश्वास क्षेत्रों के निर्माण के लिए एक सामान्य विधि के साथ शुरू करते हैं। यह एक एकल पैरामीटर पर लागू किया जा सकता है, एक आत्मविश्वास अंतराल या अंतराल के सेट को प्राप्त करने के लिए; और यह दो या दो से अधिक मापदंडों पर लागू किया जा सकता है, ताकि उच्च आयामी विश्वास क्षेत्रों का उत्पादन किया जा सके।
हम जोर है कि मनाया आंकड़े D एक वितरण से उत्पन्न मानकों के साथ θ , अर्थात् नमूना वितरण s(d|θ) से अधिक संभव आँकड़े d , और के लिए एक आत्मविश्वास क्षेत्र की तलाश θ संभव मूल्यों के दस्तावेज़ में Θ । एक उच्च घनत्व क्षेत्र (HDR) को परिभाषित करें: PDF का h -HDR अपने डोमेन का सबसे छोटा उपसमूह है जो प्रायिकता h का समर्थन करता है । निरूपित h के -HDR s(d|ψ) के रूप में Hψ , किसी के लिए ψ∈Θ । फिर,h के लिए आत्मविश्वास क्षेत्रθ , डेटा दियाD , सेट हैCD={ϕ:D∈Hϕ} । h का एक विशिष्ट मान0.95 होगा।
एक आवृत्तिवादी व्याख्या
एक आत्मविश्वास क्षेत्र के पूर्ववर्ती परिभाषा इस प्रकार से
d∈Hψ⟷ψ∈Cd
के साथ Cd={ϕ:d∈Hϕ} । अब ( काल्पनिक ) अवलोकनों के एक बड़े सेट की कल्पना करें {Di} , समान परिस्थितियों में D से लिया गया । अर्थात वे s(d|θ) से नमूने हैं । चूंकि Hθ PDF s के प्रायिकता द्रव्यमान h का समर्थन करता हैs(d|θ) ,P(Di∈Hθ)=h सभी के लिएi । इसलिए, के अंश{Di} जिसके लिएDi∈Hθ हैh । और इसलिए, उपरोक्त समानता का उपयोग करते हुए,{Di} का अंशजिसके लिएθ∈CDi भीh ।
यह है, तो, क्या frequentist दावा है h के लिए आत्मविश्वास क्षेत्र θ के बराबर है:
नमूना वितरण s ( d | θ ) से बड़ी संख्या में काल्पनिक अवलोकनों को {Di} , जो मनाया गया D को जन्म देता है । फिर, θ सादृश्य लेकिन काल्पनिक आत्मविश्वास क्षेत्रों के एक अंश h के भीतर स्थित है { C D i } ।s(d|θ)Dθh{CDi}
आत्मविश्वास क्षेत्र CD इसलिए कि संभावना के बारे में कोई दावा नहीं करे θ झूठ कहीं! कारण बस इतना है कि फोमुलेशन में ऐसा कुछ भी नहीं है जो हमें θ से अधिक संभावना वितरण की बात करने की अनुमति देता है । व्याख्या सिर्फ विस्तृत अधिरचना है, जो आधार में सुधार नहीं करती है। आधार ही है s(d|θ) और D , जहां θ एक वितरित मात्रा के रूप में प्रकट नहीं होता है, और कोई जानकारी हमने उस पते पर उपयोग कर सकते हैं नहीं है। θ पर वितरण पाने के लिए मूल रूप से दो तरीके हैं :
- हाथ में जानकारी से सीधे एक वितरण असाइन करें: p(θ|I) ।
- संबंधित θ एक और वितरित मात्रा करने के लिए: p(θ|I)=∫p(θx|I)dx=∫p(θ|xI)p(x|I)dx ।
दोनों मामलों में, θ बाईं कहीं पर दिखाई देना चाहिए। फ़्रीक्वॉन्सर या तो विधि का उपयोग नहीं कर सकते हैं, क्योंकि दोनों को एक आनुवांशिक पूर्व की आवश्यकता होती है।
एक बायसियन व्यू
सबसे एक बायेसियन के लिए कर सकते हैं h आत्मविश्वास क्षेत्र CD , योग्यता के बिना दिए गए हैं, बस प्रत्यक्ष व्याख्या है: यह है कि यह का सेट है ϕ जिसके लिए D में गिर जाता है h -HDR Hϕ नमूना वितरण की s(d|ϕ) । यह जरूरी नहीं कि हमें θ बारे में ज्यादा बताए , और यहाँ क्यों है।
संभावना है कि θ∈CD , यह देखते हुए D और पृष्ठभूमि जानकारी I , है:
P(θ∈CD|DI)=∫CDp(θ|DI)dθ=∫CDp(D|θI)p(θ|I)p(D|I)dθ
ध्यान दें कि, frequentist व्याख्या के विपरीत, हम तुरंत पर एक वितरण की मांग की हैθ। पृष्ठभूमि जानकारीIहमें बताता है, के रूप में पहले, कि नमूना वितरण हैs(d|θ):
P(θ∈CD|DI)i.e.P(θ∈CD|DI)=∫CDs(D|θ)p(θ|I)p(D|I)dθ=∫CDs(D|θ)p(θ|I)dθp(D|I)=∫CDs(D|θ)p(θ|I)dθ∫s(D|θ)p(θ|I)dθ
अब इस अभिव्यक्ति सामान्य करने के लिए मूल्यांकन में नहीं हैhहै, जो कहने के लिए है,hआत्मविश्वास क्षेत्रCDहमेशा शामिल नहीं हैθसंभावना के साथh। वास्तव में यह st सेhसे भिन्न हो सकता है। हालाँकि, कई सामान्य स्थितियाँ हैं जिनमें यहh कामूल्यांकनकरता है, यही कारण है कि आत्मविश्वास क्षेत्र अक्सर हमारे संभाव्य अंतर्ज्ञान के अनुरूप होते हैं।h
उदाहरण के लिए, की है कि पूर्व संयुक्त पीडीएफ लगता d और θ कि में सममित है pd,θ(d,θ|I)=pd,θ(θ,d|I) । (जाहिर है यह एक धारणा में एक ही डोमेन पर पीडीएफ पर्वतमाला शामिल हैं जो d और θ फिर, पहले है अगर।) p(θ|I)=f(θ) , हमारे पास s(D|θ)p(θ|I)=s(D|θ)f(θ)=s(θ|D)f(D) । इसलिए
P(θ∈CD|DI)i.e.P(θ∈CD|DI)=∫CDs(θ|D)dθ∫s(θ|D)dθ=∫CDs(θ|D)dθ
एक hdr की परिभाषा हम जानते से उस के लिए किसी भीψ∈Θ
∫Hψs(d|ψ)ddand therefore that∫HDs(d|D)ddor equivalently∫HDs(θ|D)dθ=h=h=h
इसलिए, यह देखते हुए किs(d|θ)f(θ)=s(θ|d)f(d),CD=HDका तात्पर्यP(θ∈CD|DI)=h। पूर्ववर्ती संतुष्ट
CD=HD⟷∀ψ[ψ∈CD↔ψ∈HD]
शीर्ष के निकट तुल्यता आवेदन:
CD=HD⟷∀ψ[D∈Hψ↔ψ∈HD]
इस प्रकार, आत्मविश्वास क्षेत्रCD में शामिल हैθ संभावना के साथh अगर के लिए सभी संभव मूल्योंψ केθ ,h की -HDRs(d|ψ) शामिलD यदि और केवल यदिh के -HDRs(d|D) शामिलψ ।
अब सममित संबंध D∈Hψ↔ψ∈HD सभी के लिए संतुष्ट हो जाता है ψ जब s(ψ+δ|ψ)=s(D−δ|D) सभी के लिए δ इस बात का समर्थन अवधि s(d|D) और s(d|ψ) । इसलिए हम निम्नलिखित तर्क तैयार कर सकते हैं:
- s(d|θ)f(θ)=s(θ|d)f(d) (आधार)
- ∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)] (आधार)
- ∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]⟶∀ψ[D∈Hψ↔ψ∈HD]
- ∴∀ψ[D∈Hψ↔ψ∈HD]
- ∀ψ[D∈Hψ↔ψ∈HD]⟶CD=HD
- ∴CD=HD
- [s(d|θ)f(θ)=s(θ|d)f(d)∧CD=HD]⟶P(θ∈CD|DI)=h
- ∴P(θ∈CD|DI)=h
Let's apply the argument to a confidence interval on the mean of a 1-D normal distribution (μ,σ), given a sample mean x¯ from n measurements. We have θ=μ and d=x¯, so that the sampling distribution is
s(d|θ)=n−−√σ2π−−√e−n2σ2(d−θ)2
Suppose also that we know nothing about θ before taking the data (except that it's a location parameter) and therefore assign a uniform prior: f(θ)=k. Clearly we now have s(d|θ)f(θ)=s(θ|d)f(d), so the first premise is satisfied. Let s(d|θ)=g((d−θ)2). (i.e. It can be written in that form.) Then
s(ψ+δ|ψ)=g((ψ+δ−ψ)2)=g(δ2)ands(D−δ|D)=g((D−δ−D)2)=g(δ2)so that∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]
whereupon the second premise is satisfied. Both premises being true, the eight-point argument leads us to conclude that the probability that θ lies in the confidence interval CD is h!
We therefore have an amusing irony:
- The frequentist who assigns the h confidence interval cannot say that P(θ∈CD)=h, no matter how innocently uniform θ looks before incorporating the data.
- The Bayesian who would not assign an h confidence interval in that way knows anyhow that P(θ∈CD|DI)=h.
Final Remarks
We have identified conditions (i.e. the two premises) under which the h confidence region does indeed yield probability h that θ∈CD. A frequentist will baulk at the first premise, because it involves a prior on θ, and this sort of deal-breaker is inescapable on the route to a probability. But for a Bayesian, it is acceptable---nay, essential. These conditions are sufficient but not necessary, so there are many other circumstances under which the Bayesian P(θ∈CD|DI) equals h. Equally though, there are many circumstances in which P(θ∈CD|DI)≠h, especially when the prior information is significant.
We have applied a Bayesian analysis just as a consistent Bayesian would, given the information at hand, including statistics D. But a Bayesian, if he possibly can, will apply his methods to the raw measurements instead---to the {xi}, rather than x¯. Oftentimes, collapsing the raw data into summary statistics D destroys information in the data; and then the summary statistics are incapable of speaking as eloquently as the original data about the parameters θ.