यदि एक विश्वसनीय अंतराल में एक फ्लैट पूर्व है, तो 95% विश्वास अंतराल एक 95% विश्वसनीय अंतराल के बराबर है?


31

मैं बायेसियन आंकड़ों के लिए बहुत नया हूं, और यह एक मूर्खतापूर्ण सवाल हो सकता है। फिर भी:

एक समान वितरण के साथ एक विशिष्ट अंतराल के साथ एक विश्वसनीय अंतराल पर विचार करें। उदाहरण के लिए, 0 से 1 तक, जहां 0 से 1 एक प्रभाव के संभावित मूल्यों की पूरी श्रृंखला का प्रतिनिधित्व करता है। इस मामले में, क्या 95% विश्वसनीय अंतराल 95% विश्वास अंतराल के बराबर होगा?

जवाबों:


23

कई लगातार विश्वास अंतराल (CI) संभावना समारोह पर आधारित होते हैं। यदि पूर्व वितरण वास्तव में गैर-जानकारीपूर्ण है, तो एक बायेसियन पोस्टीरियर में अनिवार्य रूप से उसी तरह की जानकारी होती है जो संभावना फ़ंक्शन के रूप में होती है। नतीजतन, व्यवहार में, एक बायिसियन प्रायिकता अंतराल (या विश्वसनीय अंतराल) एक अतिवादी आत्मविश्वास अंतराल के समान संख्यात्मक रूप से समान हो सकता है । [निश्चित रूप से, भले ही संख्यात्मक रूप से समान हो, लगातार और बेइज़ियन अंतराल के अनुमानों के बीच व्याख्या में दार्शनिक अंतर हैं ।]

यहाँ एक सरल उदाहरण है, द्विपद सफलता की संभावना का अनुमान θ. मान लीजिए कि हमारे पास X = 73 के साथ n=100 अवलोकन (परीक्षण) हैंX=73 सफलताओं के ।

Frequentist: पारंपरिक वाल्ड अंतराल का उपयोग करता है बिंदु अनुमान θ = एक्स / n = 73 / 100 = 0.73। और 95% सीआई फार्म की है θ ± 1.96 θ^=X/n=73/100=0.73.

θ^±1.96θ^(1θ^)n,
जो गणना करता है(0.643,0.817).
n = 100;  x = 73;  th.w = x/n;  pm = c(-1,1)
ci.w = th.w + pm*1.96*sqrt(th.w*(1-th.w)/n);  ci.w
[1] 0.6429839 0.8170161

CI का यह रूप मानता है कि प्रासंगिक द्विपद वितरण सामान्य लोगों द्वारा अनुमानित किया जा सकता है और यह कि त्रुटि का मार्जिन अच्छी तरह से इसका अनुमान है θ(1θ)/nविशेष रूप से छोटेएन के लिए,इन मान्यताओं को सच होने की आवश्यकता नहीं है। [वे मामले जहांएक्स=0याएक्स=एनविशेष रूप से समस्याग्रस्त हैं।]θ^(1θ^)/n.n,X=0X=n

Agresti-Coull सीआई और अधिक सटीक कवरेज संभावना है करने के लिए दिखाया गया है। यह अंतराल 'दो सफलता और दो असफलताओं' को 95% के करीब कवरेज संभावना प्राप्त करने के लिए एक चाल के रूप में जोड़ता है। यह बात अनुमान के साथ शुरू होता है जहां ~ n + 4. फिर एक 95% सीआई फार्म की है ~ θ ± 1.96 θ~=(X+2)/n~,n~+4. जो(0.612,0.792) केलिए गणना करता हैके लिएn>100और0.3<~θ<0.7,विश्वास के अंतराल के इन दो शैलियों के बीच का अंतर लगभग नगण्य है।

θ~±1.96θ~(1θ~)n~,
(0.612,0.792).n>1000.3<θ~<0.7,
ci.a = th.a + pm*1.96*sqrt(th.a*(1-th.a)/n);  ci.a
[1] 0.6122700 0.7915761

बायेसियन: एक लोकप्रिय noninformative इस स्थिति में पहले है संभावना समारोह आनुपातिक है θ एक्स ( 1 - θ ) n - एक्सपूर्व और संभावना की गुठलियों को गुणा करने पर हमारे पास पीछे के वितरण का कर्नेल है B e t a ( x + 1 ,)Beta(1,1)Unif(0,1).θx(1θ)nx.Beta(x+1,nx+1).

तब 95% बायेसियन अंतराल अनुमान क्वांटाइल्स 0.025 और 0.975 के पीछे वितरण को प्राप्त करने के लिए जब पूर्व वितरण 'फ्लैट' या 'नॉनफॉर्मेटेटिव' है, जो बायेसियन प्रायिकता अंतराल और एगेस्टी-कूप विश्वास अंतराल के बीच संख्यात्मक अंतर है।(0.635,0.807).

qbeta(c(.025, .975), 74, 28)
[1] 0.6353758 0.8072313

नोट्स: (ए) इस स्थिति में, कुछ बायेसियन नॉनफोर्मेटिव प्राइमरी पसंद करते हैं (b) ९ ५% से अधिक आत्मविश्वास के स्तर के लिए, एग्रेस्टी-कूप सीआई कुछ अलग बिंदु अनुमान का उपयोग करता है। (c) द्विपद के अलावा अन्य डेटा के लिए, पहले से कोई 'फ्लैट' उपलब्ध नहीं हो सकता है, लेकिन कोई भी एक विशाल विचरण (छोटी परिशुद्धता) के साथ एक पूर्व चुन सकता है जो बहुत कम जानकारी प्रदान करता है। (d) एगेस्टी-कूप सीआई की अधिक चर्चा के लिए, कवरेज संभावनाओं के रेखांकन और कुछ संदर्भ, शायद यह क्यू एंड ए भी देखें ।Beta(.5,.5).


10

ब्रूस का जवाब उत्कृष्ट है लेकिन बहुत लंबा है, इसलिए यहां एक त्वरित व्यावहारिक सारांश है:

  • यदि पूर्व सपाट है, तो संभावना और पीछे का आकार समान है
  • हालांकि, अंतराल आवश्यक रूप से समान नहीं हैं, क्योंकि वे अलग-अलग तरीकों से निर्मित होते हैं। एक मानक बायेसियन 90% सीआई पश्चवर्ती 90% केंद्रीय कवर करता है। एक निरंतरवादी सीआई को आमतौर पर बिंदु-वार तुलना द्वारा परिभाषित किया जाता है (ब्रूस का उत्तर देखें)। एक अनबाउंड लोकेशन पैरामीटर के लिए (जैसे सामान्य वितरण के माध्य का अनुमान), अंतर आमतौर पर छोटे होते हैं, लेकिन यदि आप किसी बाउंडेड पैरामीटर (जैसे द्विपद माध्य) का अनुमान सीमाओं (0/1) के करीब लगाते हैं, तो अंतर पर्याप्त हो सकता है।
  • बेशक, व्याख्या भी अलग है, लेकिन मैं मुख्य रूप से इस सवाल की व्याख्या करता हूं कि "मूल्य समान कब होंगे?"

9

जबकि एक व्यक्ति पहले से हल कर सकता है कि एक विश्वसनीय अंतराल पैदा करता है जो लगातार विश्वास अंतराल के बराबर होता है, यह महसूस करना महत्वपूर्ण है कि आवेदन का दायरा कितना संकीर्ण है। संपूर्ण चर्चा मान रही है कि नमूना आकार तय किया गया था और एक यादृच्छिक चर नहीं है। यह मानता है कि डेटा पर केवल एक ही नज़र थी, और यह अनुक्रमिक अनुमान नहीं था। यह मानता है कि केवल एक आश्रित चर था और कोई अन्य पैरामीटर ब्याज का नहीं था। जहां बहुसंख्याएं हैं, बायेसियन और अक्सर अंतराल डायवर्ज (बायेसियन पोस्टीरियर संभावनाएं फॉरवर्ड-टाइम प्रेडिक्टिव मोड में हैं और "हमें यहां कैसे मिला" पर विचार करने की आवश्यकता नहीं है, इस प्रकार कोई रास्ता नहीं है या कई लुक को समायोजित करने की आवश्यकता है)। के अतिरिक्त,


"फॉरवर्ड-टाइम प्रेडिक्टिव मोड" में होने का क्या मतलब है और हमें चयन या बहुलता प्रभाव पर विचार करने की आवश्यकता क्यों नहीं है?
बैडमैक्स

1
देख इस । खेल की प्रगति के रूप में एक फुटबॉल मैच के विजेता का पूर्वानुमान लगाने के बारे में सोचें। आपकी वर्तमान संभावना है कि टीम x गेम जीतता है आपके द्वारा किए गए पिछले पूर्वानुमानों को पूरी तरह से अनदेखा कर सकता है। लेकिन अगर आप एक बार-बार मोड में आ रहे हैं, तो आपको हर समय अपनी टीम के खेल को खोना होगा और खेल के दौरान सभी बिंदुओं पर स्कोर के चरम पर विचार करना होगा जिसे आप पूर्वानुमान बनाते हैं। गुणनखण्ड उन अवसरों से आते हैं जो आपको डेटा को चरम पर पहुंचाते हैं, और यह कारक केवल बार-बार होने वाली गणना में हैं।
फ्रैंक हरेल

6

संभावना पूर्व फ्लैट के साथ Bayesian

संभावना समारोह, और विश्वास अंतराल जुड़े, नहीं हैं एक समान (अवधारणा) जो एक पूर्व वितरण के साथ निर्दिष्ट बायेसियन पोस्टीरियर प्रायिकता के रूप में होता है।

इस उत्तर के भाग 1 और 2 में यह तर्क दिया जाता है कि संभावना को एक फ्लैट से पहले आधारित बायेसियन पोस्टीरियर संभावना के रूप में क्यों नहीं देखा जाना चाहिए।

भाग 3 में एक उदाहरण दिया गया है जहाँ विश्वास अंतराल और विश्वसनीय अंतराल व्यापक रूप से भिन्न हैं। यह भी बताया गया है कि यह विसंगति कैसे उत्पन्न होती है।

1 परिवर्तनशील परिवर्तन जब परिवर्तनशील होता है

संभावनाएं एक विशेष तरीके से बदल जाती हैं । अगर हम संभावना वितरण वितरण पता fx(x) तो हम भी के वितरण पता fξ(ξ) चर के लिए ξ किसी भी समारोह द्वारा परिभाषित x=χ(ξ) , परिवर्तन नियम के अनुसार:

fξ(ξ)=fx(χ(ξ))dχdξdξ

यदि आप एक चर को बदलते हैं, तो वितरण फ़ंक्शन के इस परिवर्तन के कारण माध्य और मोड भिन्न हो सकते हैं। इसका मतलब है कि x¯χ(ξ¯) और xmaxf(x)χ(ξmaxf(ξ))

संभावना फ़ंक्शन इस तरह से रूपांतरित नहीं होता है । यह संभावना समारोह और पीछे की संभावना के बीच विरोधाभास है। जब आप वैरिएबल को बदलते हैं तो अधिकतम (अधिकतम) संभावना फ़ंक्शन समान रहता है

Lξ(ξ)=Lx(χ(ξ))

सम्बंधित:

  • फ्लैट पहले अस्पष्ट है । यह विशेष सांख्यिकीय के रूप पर निर्भर करता है।

    उदाहरण के लिए, यदि X वितरित (जैसे एक समान है U(0,1)) , तो X2 है एक समान रूप से वितरित चर।

    इससे पहले एक भी फ्लैट नहीं है कि आप लाइकलीहुड फंक्शन से संबंधित कर सकें। यह अलग है जब आप X लिए फ्लैट को परिभाषित करते हैं या X2 जैसे कुछ परिवर्तित चर । संभावना के लिए यह निर्भरता मौजूद नहीं है।

  • जब आप चर को बदलते हैं, तो संभाव्यता (विश्वसनीयता अंतराल) की सीमा अलग होगी, (संभावना कार्यों के लिए यह मामला नहीं है) । कुछ पैरामीटर के लिए उदाहरण के लिए a और एक monotonic परिवर्तन f(a) (जैसे लघुगणक) आपको मिल बराबर संभावना अंतराल

    amin<a<amaxf(amin)<f(a)<f(amax)

2 अलग अवधारणा: आत्मविश्वास अंतराल पूर्व से स्वतंत्र हैं

आप एक चर का नमूना मान लीजिए X (अज्ञात) पैरामीटर के साथ एक जनसंख्या से θ जो अपने आप (पैरामीटर के साथ आबादी θ ) (के लिए संभवतः अलग-अलग मान के साथ एक सुपर आबादी से नमूना θ )।

एक एक व्युत्क्रम बयान क्या मूल अनुमान लगाने के लिए कोशिश कर रहा है कर सकते हैं θ को देख कुछ मूल्यों पर आधारित हो सकता है xi चर के लिए X

  • बायेसियन विधियां संभव of के वितरण के लिए पूर्व वितरण को θ
  • यह संभावना समारोह और आत्मविश्वास अंतराल के साथ विरोधाभास है, जो पूर्व वितरण से स्वतंत्र हैं ।

आत्मविश्वास अंतराल किसी पूर्व की जानकारी का उपयोग नहीं करता है जैसे विश्वसनीय अंतराल करता है (आत्मविश्वास एक संभावना नहीं है)।

पूर्व वितरण (वर्दी या नहीं) के बावजूद x% -कांफिडेंस अंतराल में x में सही पैरामीटर होगाx के मामलों (आत्मविश्वास अंतराल सफलता दर, प्रकार I त्रुटि, विधि का उल्लेख, किसी विशेष मामले का नहीं)।

विश्वसनीय अंतराल के मामले में यह अवधारणा (उस समय जब अंतराल में सही पैरामीटर होता है) भी लागू नहीं होता है, लेकिन हम इसे अक्सर अर्थ में व्याख्या कर सकते हैं और फिर हम देखते हैं कि विश्वसनीय अंतराल में असली पैरामीटर केवल x उस समय का जब पूर्व (वर्दी) सही ढंग से हो हमारे द्वारा सामना किए जा सकने वाले मापदंडों की सुपर-जनसंख्या का वर्णन करना। अंतराल प्रभावी रूप से x% की तुलना में अधिक या कम प्रदर्शन कर सकता है (यह नहीं कि यह मामला तब से है जब बायेसियन दृष्टिकोण अलग-अलग प्रश्नों का उत्तर देता है, लेकिन यह अंतर को नोट करना है)।

3 विश्वास और विश्वसनीय अंतराल के बीच अंतर

नीचे दिए गए उदाहरण में हम घातांक वितरण के लिए दर पैरामीटर λ कार्य के रूप में संभावना फ़ंक्शन की जांच करते हैं , नमूना x¯ , और नमूना आकार n :

L(λ,x¯,n)=nn(n1)!xn1λneλnx¯

nλx¯x¯+dx

λ00 सेवा मेरे 1)। इस मामले में पूर्व एक अनुचित पूर्व होगा । सिद्धांत हालांकि नहीं बदलते हैं। मैं इस उदाहरण का उपयोग आसान चित्रण के लिए कर रहा हूं। के बीच मापदंडों के साथ वितरण0 तथा 1 अक्सर असतत वितरण (निरंतर लाइनें खींचने में मुश्किल) या एक बीटा वितरण (गणना करने में मुश्किल) होता है

नीचे की छवि नमूना आकार के लिए इस संभावना समारोह (नीले रंग का नक्शा) को दर्शाती है n=4, और 95% अंतराल (आत्मविश्वास और विश्वसनीय दोनों) के लिए सीमाएं खींचता है।

difference between credible and confidence intervals

सीमाएँ (एक-आयामी) संचयी वितरण फ़ंक्शन प्राप्त करने के लिए बनाई गई हैं। लेकिन, यह एकीकरण / संचयन दो दिशाओं में किया जा सकता है ।

अंतराल के बीच का अंतर इसलिए होता है क्योंकि 5% क्षेत्र अलग-अलग तरीकों से बने होते हैं।

  • 95% विश्वास अंतराल में मूल्य शामिल हैंλ जिसके लिए मनाया गया मान एक्स¯कम से कम 95% मामलों में होता। इस तरह। जो भी मूल्य होλ, हम केवल 95% मामलों में गलत निर्णय लेंगे।

    किसी के लिए λ आप सीमाओं के उत्तर और दक्षिण में हैं (बदलते हैं एक्स¯) 2.5% of the weight of the likelihood function.

  • The 95% credible interval contains values λ which are most likely to cause the observed value x¯ (given a flat prior).

    Even when the observed result x¯ is less than 5% likely for a given λ, the particular λ may be inside the credible interval. In the particular example higher values of λ are 'preferred' for the credible interval.

    For any x¯ you have west and east of the boundaries (changing λ) 2.5% of the weight of the likelihood function.

A case where confidence interval and credible interval (based on improper prior) coincide is for estimating the mean of a Gaussian distributed variable (the distribution is illustrated here: https://stats.stackexchange.com/a/351333/164061 ).

An obvious case where confidence interval and credible interval do not coincide is illustrated here (https://stats.stackexchange.com/a/369909/164061). The confidence interval for this case may have one or even both of the (upper/lower) bounds at infinity.


2
Don't speak of whether the credible interval contains the true parameter. The credible interval is making a probability statement. And the x% for the confidence interval needs to mention what replication means, i.e., what 'cases' are.
Frank Harrell

First bullet is why some Bayesians prefer prior Beta(.5,.5) as mentioned in the Note at the end of my problem. // Wald intervals do not provide the advertised level of coverage because of the approximations involved. (Not precisely based on likelihood.)
BruceET

I don't believe I said that with a flat prior the likelihood is the posterior, even though that can be the case. Consistent with writing an answer at what I supposed to be OP's level of expertise, I tried to write the first paragraph of my Answer carefully. Do you believe what I said is actually wrong, or are you saying it might be misinterpreted?
BruceET

1

This is not generally true, but it may seem so because of the most frequently considered special cases.

Consider X,Yi.i.dUniform[θ1/2,θ+1/2]. The interval (min{X,Y},max{X,Y}) is a 50% confidence interval for θ, albeit not one that anyone with any common sense would use. It does not coincide with a 50% credible interval from the posterior from a flat prior.

Fisher's technique of conditioning on an ancillary statistic does in this case yield a confidence interval that coincides with that credible interval.


0

From my reading, I thought this statement is true asymptotically, i.e. for large sample size, and if one uses an uninformative prior.

A simple numerical example would seem to confirm this - the 90% profile maximum likelihood intervals and 90% credible intervals of a ML binomial GLM and Bayesian binomial GLM are indeed virtually identical for n=1000, though the discrepancy would become larger for small n :

# simulate some data
set.seed(123)
n = 1000                     # sample size
x1 = rnorm(n)                # two continuous covariates 
x2 = rnorm(n)
z = 0.1 + 2*x1 + 3*x2        # predicted values on logit scale
y = rbinom(n,1,plogis(z))    # bernoulli response variable
d = data.frame(y=y, x1=x1, x2=x2)

# fit a regular GLM and calculate 90% confidence intervals
glmfit = glm(y ~ x1 + x2, family = "binomial", data = d)
library(MASS)
# coefficients and 90% profile confidence intervals :
round(cbind(coef(glmfit), confint(glmfit, level=0.9)), 2) 
#                      5 % 95 %
#   (Intercept) 0.00 -0.18 0.17
# x1            2.04  1.77 2.34
# x2            3.42  3.05 3.81

# fit a Bayesian GLM using rstanarm
library(rstanarm)
t_prior = student_t(df = 3, location = 0, scale = 100) # we set scale to large value to specify an uninformative prior
bfit1 = stan_glm(y ~ x1 + x2, data = d, 
                 family = binomial(link = "logit"), 
                 prior = t_prior, prior_intercept = t_prior,  
                 chains = 1, cores = 4, seed = 123, iter = 10000)
# coefficients and 90% credible intervals :
round(cbind(coef(bfit1), posterior_interval(bfit1, prob = 0.9)), 2) 
#                        5%  95%
#   (Intercept) -0.01 -0.18 0.17
# x1             2.06  1.79 2.37
# x2             3.45  3.07 3.85


# fit a Bayesian GLM using brms
library(brms)
priors = c(
  prior(student_t(3, 0, 100), class = "Intercept"),
  prior(student_t(3, 0, 100), class = "b")
)
bfit2 = brm(
  y ~ x1 + x2,
  data = d,
  prior = priors,
  family = "bernoulli",
  seed = 123 
) 
# coefficients and 90% credible intervals :
summary(bfit2, prob=0.9)
# Population-Level Effects: 
#           Estimate Est.Error l-90% CI u-90% CI Eff.Sample Rhat
# Intercept    -0.01      0.11    -0.18     0.18       2595 1.00
# x1            2.06      0.17     1.79     2.35       2492 1.00
# x2            3.45      0.23     3.07     3.83       2594 1.00


# fit a Bayesian GLM using arm
library(arm)
# we set prior.scale to Inf to specify an uninformative prior
bfit3 = bayesglm(y ~ x1 + x2, family = "binomial", data = d, prior.scale = Inf) 
sims = coef(sim(bfit3, n.sims=1000000))
# coefficients and 90% credible intervals :
round(cbind(coef(bfit3), t(apply(sims, 2, function (col) quantile(col,c(.05, .95))))),2)
#                       5%  95%
#   (Intercept) 0.00 -0.18 0.17
# x1            2.04  1.76 2.33
# x2            3.42  3.03 3.80

As you can see, in the example above, for n=1000, the 90% profile confidence intervals of a binomial GLM are virtually identical to the 90% credible intervals of a Bayesian binomial GLM (the difference is also within the bounds of using different seeds and different nrs of iterations in the bayesian fits, and an exact equivalence can also not be obtained since specifying a 100% uninformative prior is also not possible with rstanarm or brms).

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.