दिखाएँ अनुमान आदेश आँकड़ों के माध्यम से प्रतिशत में परिवर्तित होता है


10

चलो आईआईडी यादृच्छिक एक से नमूना चर का एक अनुक्रम हो अल्फा स्थिर वितरण , मानकों के साथ । α = 1.5 ,X1,X2,,X3nα=1.5,β=0,c=1.0,μ=1.0

अब अनुक्रम , जहां , ।Y1,Y2,,YnYj+1=X3j+1X3j+2X3j+31j=0,,n1

मैं प्रतिशत का अनुमान लगाना चाहता हूं ।0.01

मेरा विचार मोंटे-कार्लो अनुकरण का प्रदर्शन करना है:

l = 1;
while(l < max_iterations)
{
  Generate $X_1, X_2, \ldots, X_{3n}$ and compute $Y_1, Y_2, \ldots, Y_{n}$;
  Compute $0.01-$percentile of current repetition;
  Compute mean $0.01-$percentile of all the iterations performed;
  Compute variance of $0.01-$percentile of all the iterations performed;
  Calculate confidence interval for the estimate of the $0.01-$percentile;

  if(confidence interval is small enough)
    break;

}

सभी सैंपल पर्सेंटाइल के माध्य को कॉल करते हुए और उनके की गणना की जाती है , जो कि मेरे लिए उपयुक्त आत्मविश्वास अंतराल की गणना करने के लिए है , करने के लिए केन्द्रीय सीमा प्रमेय के मजबूत रूप :- μ n σ 2 n μ0.01μ^nσ^n2μ

चलो साथ आईआईडी यादृच्छिक चर का एक अनुक्रम हो और । नमूना का मतलब । फिर, में एक मानक सामान्य वितरण है, अर्थात [ एक्स मैं ] = μ 0 < वी [ एक्स मैं ] = σ 2 < μ n = ( 1 / n ) Σ n मैं = 1 एक्स मैं ( μ n - μ ) / X1,X2,E[Xi]=μ0<V[Xi]=σ2<μ^n=(1/n)i=1nXiμ n -μ(μ^nμ)/σ2/n

μ^nμσ2/nnN(0,1).

और Slutksy की प्रमेय कि निष्कर्ष निकालने के लिए कि

nμ^nμσ^n2nN(0,1).

तब लिए एक आत्मविश्वास हैμ(1α)×100%μ

जेड1-α/2(1-α/2)

Iα=[μ^nz1α/2σ^n2n,μ^n+z1α/2σ^n2n],
जहां मानक सामान्य वितरण का ।z1α/2(1α/2)

प्रशन:

1) क्या मेरा दृष्टिकोण सही है? मैं सीएलटी के आवेदन को कैसे सही ठहरा सकता हूं? मेरा मतलब है, मैं कैसे दिखा सकता हूं कि विचरण परिमित है? (क्या मुझे के विचरण को ? क्योंकि मुझे नहीं लगता कि यह परिमित है ...)Yj

2) मैं कैसे दिखा सकते हैं कि के सभी नमूना औसत प्रतिशतक के सही मूल्य को converges अभिकलन प्रतिशतक? (मुझे ऑर्डर के आँकड़ों का उपयोग करना चाहिए, लेकिन मैं यह सुनिश्चित करने के लिए अनिश्चित हूँ कि संदर्भ कैसे प्राप्त किए जाते हैं।)0.01 -0.010.01


3
आँकड़े मेधावियों पर नमूने के लिए लागू की गई सभी विधियाँ। perackexchange.com/questions/45124 अन्य प्रतिशतक पर भी लागू होती हैं। वास्तव में, आपका प्रश्न उसी के समान है, लेकिन केवल 1 (या 0.01 शायद?) प्रतिशत के साथ 50 वें प्रतिशत को बदल देता है।
whuber

@ जब भी, उस सवाल पर आपका जवाब बहुत अच्छा है। हालाँकि, Glen_b अपने पोस्ट के अंत में (स्वीकृत उत्तर) कहता है, कि अनुमानित सामान्यता "चरम मात्राओं के लिए नहीं है, क्योंकि CLT वहाँ किक नहीं करता है (Z का औसत asymptotot सामान्य नहीं होगा) )। आपको चरम मूल्यों के लिए अलग सिद्धांत की आवश्यकता है "। मुझे इस कथन के बारे में कितना चिंतित होना चाहिए?
माया

2
मेरा मानना ​​है कि वह वास्तव में चरम मात्राओं का मतलब नहीं था , लेकिन केवल खुद चरम । (वास्तव में, उन्होंने उसी वाक्य के अंत में उस चूक को सही किया, जिसका उल्लेख उन्होंने "चरम मूल्यों" के रूप में किया।) भेद यह है कि एक चरम मात्रात्मक, जैसे .01 प्रतिशत (जो नीचे के 1/10000 वें हिस्से को चिह्नित करता है। वितरण), सीमा में, स्थिर हो जाएगा क्योंकि एक नमूने में अधिक से अधिक डेटा अभी भी नीचे गिर जाएगा और अधिक से अधिक उस प्रतिशत से ऊपर गिर जाएगा। एक चरम (जैसे कि अधिकतम या न्यूनतम) के साथ ऐसा नहीं है।
whuber

यह एक समस्या है जिसे अनुभवजन्य प्रक्रिया सिद्धांत का उपयोग करके सामान्य रूप से हल किया जाना चाहिए। आपके प्रशिक्षण के स्तर के बारे में कुछ मदद सहायक होगी।
एडमो

जवाबों:


2

का प्रसरण परिमित नहीं है। Y इसका कारण यह है कि एक अल्फ़ा-स्टेबल वेरिएबल with Alpha 3/2 (एक Holtzmark वितरण ) में एक परिमित प्रत्याशा लेकिन इसका विचरण अनंत है। यदि का परिमित विचरण , तो की स्वतंत्रता का और विचरण की परिभाषा से हम गणना कर सकते थेα = 3 / 2 μ वाई σ 2 एक्स मैंXα=3/2μYσ2Xi

σ2=Var(Y)=E(Y2)E(Y)2=E(X12X22X32)E(X1X2X3)2=E(X2)3(E(X)3)2=(Var(X)+E(X)2)3μ6=(Var(X)+μ2)3μ6.

में इस घन समीकरण का कम से कम एक वास्तविक समाधान है (और तीन समाधानों तक, लेकिन अधिक नहीं), जिसका अर्थ है कि परिमित होगा - लेकिन यह नहीं है। यह विरोधाभास दावा साबित करता है।Var(X)Var(X)


दूसरे प्रश्न की ओर मुड़ते हैं।

किसी भी सैंपल की मात्रा का सही मात्रा में परिवर्तित हो जाना, क्योंकि नमूना बड़ा हो जाता है। अगले कुछ पैराग्राफ इस सामान्य बिंदु को साबित करते हैं।

संबद्ध संभावना को (या और , अनन्य के बीच कोई अन्य मान ) होने दें। लिखें वितरण समारोह के लिए है, ताकि है quantile।q=0.0101FZq=F1(q)qth

हम सभी को यह मानने की जरूरत है कि (क्वांटाइल फंक्शन) निरंतर है। यह हमें आश्वासन देता है कि किसी भी लिए प्रायिकताएं और , जिसके लिएF1ϵ>0q<qq+>q

F(Zqϵ)=q,F(Zq+ϵ)=q+,

और उस के रूप में , अंतराल की सीमा है ।ϵ0[q,q+]{q}

आकार किसी भी iid नमूने पर विचार करें । इस नमूने के तत्वों की संख्या जो से कम है पास एक द्विपद वितरण है, क्योंकि प्रत्येक तत्व का स्वतंत्र रूप से एक मौका जो से कम है । केंद्रीय सीमा प्रमेय (सामान्य एक!) का अर्थ है कि पर्याप्त रूप से बड़े , से कम तत्वों की संख्या औसत और भिन्नता साथ एक सामान्य वितरण द्वारा दी गई है एक मनमाने ढंग से अच्छा सन्निकटन)। मानक सामान्य वितरण के CDF को । मौका है कि यह मात्रा से अधिक हैnZq(q,n)qZqnZqnqnq(1q)Φnq इसलिए मनमाने ढंग से पास है

1Φ(nqnqnq(1q))=1Φ(nqqq(1q)).

क्योंकि पर तर्क दाहिने हाथ की ओर की एक निश्चित एकाधिक है , यह मनमाने ढंग से बड़े रूप में उगता है बढ़ता है। चूँकि एक CDF है, इसका मान मनमाने ढंग से करीब आता है , यह दिखाते हुए कि इस संभाव्यता का सीमित मान शून्य है।Φ nΦnnΦ1

शब्दों में: सीमा में, यह लगभग निश्चित रूप से मामला है कि है नमूना तत्वों की कम नहीं हैं । एक अनुरूप तर्क यह लगभग निश्चित रूप से मामला है कि साबित होता है नमूना तत्वों की तुलना में अधिक नहीं हैं । साथ में, इन मतलब एक पर्याप्त रूप से बड़े नमूने के quantile के बीच झूठ के लिए बेहद संभावना है औरजेड क्ष - एन क्ष जेड क्ष + क्ष जेड क्ष - ε जेड क्ष + εnqZqnqZq+qZqϵZq+ϵ

यह हम सभी को पता है कि सिमुलेशन काम करेगा की जरूरत है। आप सटीकता और आत्मविश्वास स्तर के किसी भी वांछित डिग्री को चुन सकते हैं और जानते हैं कि पर्याप्त रूप से बड़े नमूना आकार , उस नमूने में सबसे नज़दीकी क्रम सांख्यिकीय के पास कम से कम के भीतर होने का एक मौका होगा। असली मात्रात्मक का ।1 - अल्फा एन एन क्ष 1 - अल्फा ε जेड क्षϵ1αnnq1αϵZq


स्थापित होने के बाद कि एक सिमुलेशन काम करेगा, बाकी आसान है। द्विपद वितरण के लिए सीमा से विश्वास सीमा प्राप्त की जा सकती है और फिर वापस रूपांतरित की जा सकती है। आगे की व्याख्या ( मात्रा के लिए, लेकिन सभी मात्राओं के लिए सामान्यीकरण) के नमूने के लिए केंद्रीय सीमा प्रमेय के उत्तर में पाया जा सकता है ।q=0.50

चित्रा: 1000 पुनरावृत्तियों के लिए n = 300 के साथ Y के 0.01 मात्रा के हिस्टोग्राम

की quantile नकारात्मक है। इसका नमूना वितरण अत्यधिक तिरछा है। तिरछा कम करने के लिए, यह आंकड़ा के मानों के 1,000 सिम्युलेटेड नमूनों के नकारात्मक के लघुगणक का हिस्टोग्राम दिखाता है ।Y n = 300 Yq=0.01Yn=300Y

library(stabledist)
n <- 3e2
q <- 0.01
n.sim <- 1e3

Y.q <- replicate(n.sim, {
  Y <- apply(matrix(rstable(3*n, 3/2, 0, 1, 1), nrow=3), 2, prod) - 1
  log(-quantile(Y, 0.01))
})
m <- median(-exp(Y.q))
hist(Y.q, freq=FALSE, 
     main=paste("Histogram of the", q, "quantile of Y for", n.sim, "iterations" ),
     xlab="Log(-Y_q)",
     sub=paste("Median is", signif(m, 4), 
               "Negative log is", signif(log(-m), 4)),
     cex.sub=0.8)
abline(v=log(-m), col="Red", lwd=2)
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.