कैसे एक प्रतिशत के लिए एक विश्वास अंतराल प्राप्त करने के लिए?


15

मेरे पास कच्चे डेटा मानों का एक समूह है जो डॉलर की राशि है और मैं उस डेटा के एक प्रतिशत के लिए एक आत्मविश्वास अंतराल खोजना चाहता हूं। क्या इस तरह के विश्वास अंतराल के लिए एक सूत्र है?

जवाबों:


21

यह प्रश्न, जो एक सामान्य स्थिति को कवर करता है, एक सरल, गैर-अनुमानित उत्तर का हकदार है। सौभाग्य से, वहाँ एक है।

मान लीजिए कि एक्स1,...,एक्सn एक अज्ञात वितरण से स्वतंत्र मान है, एफजिसका क्षवें मात्रा मैं लिखूंगा एफ-1(क्ष)। इसका मतलब यह है कि प्रत्येक एक्समैं पास F - 1 ( q ) से कम या बराबर होने का (कम से कम) क्ष का मौका है । फलस्वरूप X की संख्या I से कम या F - 1 ( q ) के बराबर एक द्विपद ( n) हैF1(q)XiF1(q)(n,q) वितरण।

इस सरल विचार से प्रेरित, गेराल्ड हैन और विलियम मीकर ने अपनी हैंडबुक स्टैटिस्टिकल इंटरवल (विली 1971) में लिखा

F - 1 ( q ) के लिए दो-तरफा वितरण-मुक्त रूढ़िवादी 100(1α)% विश्वास अंतराल प्राप्त होता है ... जैसा कि [ X ( l ) , X ( u ) ]F1(q)[X(l),X(u)]

जहां कर रहे हैं क्रम आँकड़े नमूने की। वे कहने के लिए आगे बढ़ेंX(1)X(2)X(n)

एक पूर्णांक चयन कर सकते हैं संतुलित (या लगभग संतुलित) के आसपास क्ष ( n + 1 ) और के रूप में एक साथ के रूप में करीब संभव विषय आवश्यकताओं के कि बी ( यू - 1 ; n , क्ष ) - बी ( एल - 1 , एन , क्यू ) 1 - α 0lunq(n+1)

(1)B(u1;n,q)B(l1;n,q)1α.

बाईं ओर अभिव्यक्ति का मौका है कि एक द्विपद चर में { l , l + 1 , , u - 1 } का एक मान है । जाहिर है, इस मौका डेटा मानों की संख्या है कि एक्स मैं कम में आने वाले 100 क्ष % वितरण का है न तो बहुत छोटा है (कम से कम एल ) और न ही बहुत बड़ा है ( यू या अधिक)।(n,q){l,l+1,,u1}Xi100q%lu

हैन और मीकर कुछ उपयोगी टिप्पणियों के साथ अनुसरण करते हैं, जो मैं उद्धृत करूंगा।

पूर्ववर्ती अंतराल रूढ़िवादी है क्योंकि समीकरण के बाईं ओर दिए गए वास्तविक आत्मविश्वास स्तर, निर्दिष्ट मूल्य 1 - α से अधिक है । ...(1)1α

वितरण-मुक्त सांख्यिकीय अंतराल का निर्माण करना कभी-कभी असंभव होता है, जिसमें कम से कम वांछित आत्मविश्वास स्तर होता है। यह समस्या विशेष रूप से तीव्र है जब एक छोटे नमूने से वितरण की पूंछ में प्रतिशत का अनुमान लगाया जाता है। ... कुछ मामलों में, विश्लेषक और u nonsymmetrically चुनकर इस समस्या का सामना कर सकता है । एक अन्य विकल्प कम आत्मविश्वास स्तर का उपयोग करना हो सकता है।lu


आइए एक उदाहरण के माध्यम से काम करें (हैन एंड मीकर द्वारा प्रदान किया गया)। वे एक रासायनिक प्रक्रिया से एक यौगिक के "माप के एक निर्धारित सेट की आपूर्ति करते हैं " और q = 0.90 प्रतिशत के लिए 100 ( 1 - α ) = 95 % विश्वास अंतराल के लिए पूछते हैं । उनका दावा है कि एल = 85 और यू = 97 काम करेंगे।n=100100(1α)=95%q=0.90l=85u=97

द्विपद (100, 0.90) वितरण दिखाते हुए चित्र

इस अंतराल की कुल संभावना, जैसा कि आंकड़े में नीली पट्टियों द्वारा दिखाया गया है, : जो करीब 95 % तक पहुंच सकता है , फिर भी इसके ऊपर रहना चाहिए, दो कटऑफ चुनकर और बाईं पूंछ में सभी अवसरों को समाप्त कर सकता है। और सही पूंछ जो उन कटऑफ से परे हैं।95.3%95%

यहां डेटा को क्रम से दिखाया गया है, बीच में से मानों को छोड़ कर :81

1.491.662.0524.3324.7225.4625.6725.7726.6428.2828.2829.0729.1631.1431.8333.2437.3253.4358.11

सबसे बड़ा है 24.33 और 97 वीं सबसे बड़ा है 33.24 । इसलिए अंतराल [ 24.33 , 33.24 ] है85th24.3397th33.24[24.33,33.24]

चलो फिर से व्याख्या करते हैं। इस प्रक्रिया में 90 वें प्रतिशत को कवर करने का कम से कम मौका होना चाहिए था । यदि वह प्रतिशतता वास्तव में 33.24 से अधिक है , तो इसका मतलब है कि हमने अपने नमूने में 97 या 100 से अधिक मूल्यों को देखा होगा जो 90 वें प्रतिशत से नीचे हैं । यह बहुत सारे है। यदि वह प्रतिशत 24.33 से कम है , तो इसका मतलब है कि हमने अपने नमूने में 84 या उससे कम मान देखे होंगे जो 90 वें प्रतिशत से नीचे हैं । वह बहुत कम है।95%90th33.249710090th24.338490th या तो मामले में - जैसा कि आंकड़े में लाल पट्टियों द्वारा इंगित किया गया है - यह इस अंतराल के भीतर झूठ बोलने वाले प्रतिशत के खिलाफ सबूत होगा ।90th


और यू के अच्छे विकल्प खोजने का एक तरीका है अपनी आवश्यकताओं के अनुसार खोज करना। यहां एक विधि है जो एक सममित अनुमानित अंतराल के साथ शुरू होती है और फिर अच्छी कवरेज (यदि संभव हो) के साथ अंतराल खोजने के लिए एल और यू दोनों को अलग-अलग 2 तक खोजती है । यह कोड के साथ सचित्र है । यह सामान्य वितरण के लिए पूर्ववर्ती उदाहरण में कवरेज की जांच करने के लिए स्थापित किया गया है। इसका आउटपुट हैlulu2R

सिमुलेशन मतलब कवरेज 0.9503 था; अपेक्षित कवरेज 0.9523 है

अनुकरण और अपेक्षा के बीच समझौता उत्कृष्ट है।

#
# Near-symmetric distribution-free confidence interval for a quantile `q`.
# Returns indexes into the order statistics.
#
quantile.CI <- function(n, q, alpha=0.05) {
  #
  # Search over a small range of upper and lower order statistics for the 
  # closest coverage to 1-alpha (but not less than it, if possible).
  #
  u <- qbinom(1-alpha/2, n, q) + (-2:2) + 1
  l <- qbinom(alpha/2, n, q) + (-2:2)
  u[u > n] <- Inf
  l[l < 0] <- -Inf
  coverage <- outer(l, u, function(a,b) pbinom(b-1,n,q) - pbinom(a-1,n,q))
  if (max(coverage) < 1-alpha) i <- which(coverage==max(coverage)) else
    i <- which(coverage == min(coverage[coverage >= 1-alpha]))
  i <- i[1]
  #
  # Return the order statistics and the actual coverage.
  #
  u <- rep(u, each=5)[i]
  l <- rep(l, 5)[i]
  return(list(Interval=c(l,u), Coverage=coverage[i]))
}
#
# Example: test coverage via simulation.
#
n <- 100      # Sample size
q <- 0.90     # Percentile
#
# You only have to compute the order statistics once for any given (n,q).
#
lu <- quantile.CI(n, q)$Interval
#
# Generate many random samples from a known distribution and compute 
# CIs from those samples.
#
set.seed(17)
n.sim <- 1e4
index <- function(x, i) ifelse(i==Inf, Inf, ifelse(i==-Inf, -Inf, x[i]))
sim <- replicate(n.sim, index(sort(rnorm(n)), lu))
#
# Compute the proportion of those intervals that cover the percentile.
#
F.q <- qnorm(q)
covers <- sim[1, ] <= F.q & F.q <= sim[2, ]
#
# Report the result.
#
message("Simulation mean coverage was ", signif(mean(covers), 4), 
        "; expected coverage is ", signif(quantile.CI(n,q)$Coverage, 4))

4

व्युत्पत्ति

-quantile क्ष τ एक यादृच्छिक चर के (इस प्रतिशतक से अधिक सामान्य अवधारणा है) एक्स द्वारा दिया जाता है एफ - 1 एक्स ( τ ) । नमूना समकक्ष के रूप में लिखा जा सकता है क्ष τ = एफ - 1 ( τ ) - यह सिर्फ नमूना quantile है। हम इसके वितरण में रुचि रखते हैं:τqτXFX1(τ)q^τ=F^1(τ)

n(q^τqτ)

सबसे पहले, हमें अनुभवजन्य सीएफडी के स्पर्शोन्मुख वितरण की आवश्यकता है।

F^(x)=1n1{Xi<x}1{Xi<x}पी(एक्समैं<एक्स)=एफ(एक्स)एफ(एक्स)(1-एफ(एक्स))

n(एफ^(एक्स)-एफ(एक्स))एन(0,एफ(एक्स)(1-एफ(एक्स)))(1)

अब, क्योंकि व्युत्क्रम एक निरंतर कार्य है, हम डेल्टा विधि का उपयोग कर सकते हैं।

n(y¯-μy)एन(0,σ2)जी()n(जी(y¯)-जी(μy))एन(0,σ2(जी'(μy))2)

एक्स=क्षτजी()=एफ-1()

n(F1(F^(qτ))F1(F(qτ)))=n(q^τqτ)

F1(F^(qτ))F^1(F^(qτ))=q^τ

अब, ऊपर बताए गए डेल्टा विधि को लागू करें।

ddxF1(x)=1f(F1(x))

n(q^τqτ)N(0,F(qτ)(1F(qτ))f(F1(F(qτ)))2)=N(0,F(qτ)(1F(qτ))f(qτ)2)

फिर, विश्वास अंतराल का निर्माण करने के लिए, हमें ऊपर दिए गए विचरण में प्रत्येक शब्द के नमूना समकक्षों में प्लगिंग करके मानक त्रुटि की गणना करने की आवश्यकता है:

परिणाम

se(q^τ)=F^(q^τ)(1F^(q^τ))nf^(q^τ)2= τ(1τ)nf^(q^τ)2

CI0.95(q^τ)=q^τ±1.96se(q^τ)

X


1
क्या आप लिंक किए गए लेख की सामग्री से अपने उत्तर का विस्तार कर सकते हैं? लिंक हमेशा के लिए काम नहीं कर सकते हैं और फिर यह जवाब कम उपयोगी हो जाएगा
एंडी

1
द्विपद वितरण पर वितरित वितरण मुक्त की तुलना में घनत्व अनुमानों के आधार पर इस स्पर्शोन्मुख परिणाम का क्या फायदा है?
माइकल एम

क्या यह अभी भी मूल रूप से जुड़े हुए लेख पर आधारित है ?
निक स्टैनर

हां, क्या मुझे उस लिंक को वापस जोड़ना चाहिए? मुझे लगता है कि यह एक प्रसिद्ध परिणाम है। मैंने इसे कक्षा में पहले देखा है और इसे Google द्वारा खोजना मुश्किल नहीं है। इस तरह के एक मामले में, क्या इससे लिंक करना या इसे टाइप करना बेहतर है, या दोनों?
bmciv

मैं कहता हूँ कि दोनों, और आपको इसे वापस संपादित करना चाहिए अगर यह उचित उद्धरण के लिए पूरी तरह से उद्धृत / व्युत्पन्न है। अन्यथा इससे कोई फर्क नहीं पड़ता कि आप इसे संपादित करते हैं, लेकिन सामान्य तौर पर, स्टैक एक्सचेंज पॉलिसी लिंक रॉट से बचने के लिए लिंक-ओनली उत्तरों को हतोत्साहित करना है और सिद्धांत के रूप में (विचार एक स्वतंत्र रिपॉजिटरी होना है, लिंक इंडेक्स नहीं - लेकिन मुझे यकीन नहीं है कि उस परिदृश्य का कितना हिस्सा काल्पनिक "फिसलन ढलान" से अधिक है)।
निक स्टॉनर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.