आवश्यक नमूना आकार की गणना, विचरण अनुमान की परिशुद्धता?


18

पृष्ठभूमि

मेरे पास एक अज्ञात वितरण के साथ एक चर है।

मेरे पास 500 नमूने हैं, लेकिन मैं उस सटीकता को प्रदर्शित करना चाहूंगा जिसके साथ मैं विचरण की गणना कर सकता हूं, उदाहरण के लिए तर्क है कि 500 ​​का एक नमूना आकार पर्याप्त है। मुझे न्यूनतम नमूना आकार जानने में भी दिलचस्पी है जो की सटीकता के साथ विचरण का अनुमान लगाने के लिए आवश्यक होगा X%

प्रशन

मैं कैसे गणना कर सकता हूं

  1. नमूने के आकार को दिए गए मेरे अनुमान की सटीकता n=500क्या है? of n=N ?
  2. मैं परिशुद्धता के साथ विचरण का अनुमान लगाने के लिए आवश्यक न्यूनतम नमूनों की गणना कैसे कर सकता हूं X?

उदाहरण

500 नमूनों के आधार पर पैरामीटर के चित्रा 1 घनत्व का अनुमान।

यहाँ छवि विवरण दर्ज करें

चित्र 2 यहाँ x- अक्ष पर नमूने के आकार का एक प्लॉट है। y अक्ष पर विचरण के अनुमानों का अनुमान है जो मैंने 500 के नमूने से उपसमूहों का उपयोग करके गणना की है। विचार यह है कि अनुमान वास्तविक विचरण के रूप में n बढ़ जाएंगे। ।

हालांकि, अनुमान वैध स्वतंत्र के बाद से नमूनों के लिए विचरण अनुमान किया नहीं हैं n[10,125,250,500] एक दूसरे के या कम से कैलकुलेट विचरण करने के लिए इस्तेमाल नमूनों की स्वतंत्र नहीं हैं n[20,40,80]

यहाँ छवि विवरण दर्ज करें


बस इस बात से अवगत रहें कि यदि आपके अज्ञात वितरण का एक घटक काउची वितरण है, तो विचरण अपरिभाषित है।
माइक एंडरसन

@ माइक या वास्तव में अन्य वितरणों की एक अनंत संख्या है।
Glen_b -Reinstate Monica

जवाबों:


11

आईआईडी यादृच्छिक चर के लिए , विचरण के लिए निष्पक्ष आकलनकर्ता रों 2 (विभाजक के साथ एक n - 1 ) विचरण है:X1,,Xns2n1

Var(s2)=σ4(2n1+κn)

जहां वितरण का अतिरिक्त कर्टोसिस है (संदर्भ: विकिपीडिया )। तो अब आपको अपने वितरण के कर्टोसिस का भी अनुमान लगाना होगा। आप एक मात्रा कभी कभी के रूप में वर्णित का उपयोग कर सकते γ 2 (भी से विकिपीडिया ):κγ2

γ2=μ4σ43

मुझे लगता है कि आप का उपयोग करें यदि के लिए एक अनुमान के रूप में σ और गामा 2 के लिए एक अनुमान के रूप में κ , कि आप के लिए एक उचित अनुमान प्राप्त वी एक आर ( रों 2 ) , हालांकि मैं एक गारंटी है कि यह निष्पक्ष है नहीं दिख रहा। देखें कि क्या यह आपके 500 डेटा बिंदुओं के सबसेट के बीच विचरण के साथ मेल खाता है, और यदि यह इसके बारे में अब चिंता नहीं करता है :)sσγ2κVar(s2)


क्या आपके पास प्रसरण के निष्पक्ष अनुमानक के लिए एक पाठ्यपुस्तक संदर्भ है? मुझे नहीं पता कि अधिक संदर्भ के लिए विकिपीडिया से कहाँ जाना है।
अबे

मैं अपने मानक पाठ की जरूरत नहीं है चावल यहाँ, इसलिए मैं आप के लिए पेज नंबर की जांच नहीं कर सकते हैं मेरे साथ है, लेकिन मुझे यकीन है कि यह वहाँ में हूँ। विकिपीडिया का सुझाव है कि इसका भी उल्लेख किया जाना चाहिए: मोंटगोमरी, डीसी और रूंगर, जीसी: इंजीनियरों के लिए लागू आंकड़े और संभावना , पेज 201. जॉन विले एंड संस न्यूयॉर्क, 1994।
एरिक पी।

इसके साथ आपकी मदद का शुक्रिया। यह उत्तर बहुत उपयोगी रहा है और विचरण अनिश्चितता को निर्धारित करने के लिए जानकारीपूर्ण रहा है - मैंने अंतिम दिन में लगभग 10 बार समीकरण लागू किया है। की गणना साथ आसान है : पुस्तकालय kappamomentslibrary(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
अबे

चावल पाठ से कोई भी पृष्ठ संख्या आपको मिली? मैं इसे Casella और Berger में नहीं ढूंढ सकता। एक प्राथमिक संदर्भ बेहतर होगा यदि आप इसे जानते हैं। विकिपीडिया पृष्ठ विशेष रूप से संयुक्त राष्ट्र-संदर्भित है।
अबे

हम्म ... लगता है कि राइस में भी फॉर्मूला नहीं है। मैं इसके लिए नजर रखूंगा, लेकिन इस समय मेरे पास कोई संदर्भ नहीं है।
एरिक पी।

16

विचरण सीखना कठिन है।

यह कई मामलों में अच्छी तरह से विचरण का अनुमान लगाने के लिए (शायद आश्चर्यजनक रूप से) बड़ी संख्या में नमूने लेता है। नीचे, मैं एक iid सामान्य नमूने के "विहित" मामले के लिए विकास दिखाऊंगा।

मान लीजिए , मैं = 1 , ... , n रहे हैं स्वतंत्र एन ( μ , σ 2 ) यादृच्छिक परिवर्तनीय। हम विचरण के लिए 100 ( 1 - α ) % विश्वास अंतराल चाहते हैं जैसे कि अंतराल की चौड़ाई ρ s 2 है , अर्थात, चौड़ाई अनुमान बिंदु का 100 ρ % है। उदाहरण के लिए, यदि ρ = 1 / 2 , तो सीआई की चौड़ाई बिंदु अनुमान के आधे मूल्य, जैसे, यदि हैYii=1,,nN(μ,σ2)100(1α)%ρs2100ρ%ρ=1/2 , फिर CI कुछ ऐसा होगा ( 8 ,s2=10 , चौड़ाई 5. होने के साथ ही बिंदु अनुमान के आसपास विषमता पर भी ध्यान दें। ( s 2 विचरण के लिए निष्पक्ष अनुमानक है।)(8,13)s2

"" (बजाय, "एक") के लिए विश्वास अंतराल है ( n - 1 ) रों 2s2 जहां χ 2

(n1)s2χ(n1)2(1α/2)σ2(n1)s2χ(n1)2(α/2),
हैβसाथ ची-वर्ग वितरण के quantilen-1स्वतंत्रता की डिग्री। (यह तथ्य यह है कि से उत्पन्न होती है(n-1)एस2/σ2। एक गाऊसी सेटिंग में एक निर्णायक मात्रा है)χ(n1)2ββn1(n1)s2/σ2

हम चौड़ाई को कम करना चाहते हैं ताकि तो हम के लिए हल करने के लिए छोड़ दिया जाता है n ऐसा है कि ( n - 1 ) ( 1

L(n)=(n1)s2χ(n1)2(α/2)(n1)s2χ(n1)2(1α/2)<ρs2,
n
(n1)(1χ(n1)2(α/2)1χ(n1)2(1α/2))<ρ.

99% विश्वास अंतराल के मामले में, हमें ρ = 1 के लिए और ρ = 0.1 के लिए n = 5321 मिलता है । यह अंतिम मामला एक अंतराल पैदा करता है जो ( अभी भी! ) विचरण के बिंदु अनुमान के रूप में 10% बड़ा है।n=65ρ=1n=5321ρ=0.1

यदि आपका चुना हुआ आत्मविश्वास का स्तर 99% से कम है, तो कम मूल्य के लिए समान चौड़ाई का अंतराल प्राप्त होगा । लेकिन, n अभी भी बड़ा हो सकता है जितना आपने अनुमान लगाया होगा।nn

नमूना आकार बनाम आनुपातिक चौड़ाई ρ का एक प्लॉट कुछ ऐसा दिखाता है जो लॉग-लॉग स्केल पर asymptotically रैखिक दिखता है; दूसरे शब्दों में, एक शक्ति-कानून - जैसे संबंध। हम इस शक्ति-कानून संबंध (गंभीर रूप से) की शक्ति का अनुमान लगा सकते हैंnρ

α^log0.1log1log5321log65=log10log5231650.525,

जो दुर्भाग्य से, निश्चित रूप से धीमा है!


यह गणना के बारे में जाने के लिए आपको यह महसूस करने के लिए "विहित" मामले की तरह है। आपके भूखंडों के आधार पर, आपका डेटा विशेष रूप से सामान्य नहीं दिखता है; विशेष रूप से, ध्यान देने योग्य तिरछा प्रतीत होता है।

लेकिन, इससे आपको एक बॉलपार्क विचार करना चाहिए कि क्या उम्मीद की जाए। ध्यान दें कि ऊपर दिए गए आपके दूसरे प्रश्न का उत्तर देने के लिए, पहले कुछ विश्वास स्तर को ठीक करना आवश्यक है, जिसे मैंने प्रदर्शन उद्देश्यों के लिए ऊपर के विकास में 99% पर सेट किया है।


यह मेरे सवाल का बहुत अच्छा जवाब है। हालाँकि, हालाँकि मैं उस गणना का अनुसरण करता हूँ जो आप , यह मेरे लिए बिल्कुल स्पष्ट नहीं है यदि r h o के लिए इकाइयां ρ < १ के लिए समाधान n = ६५ में प्रतिशत है ; करता है इसका मतलब " ρ से भी कम है 1 × रों 2 या" " ρ से कम 1 % की रों 2 ?n|ρrhon=65ρ<1ρ1×s2ρ1%s2
अबे

@Abe, अद्यतन और उम्मीद की प्रक्रिया में स्पष्ट किया। पिछले संस्करण में एक विशेष रूप से खराब टाइपो था। उसके लिए माफ़ करना।
कार्डिनल

एक बहुत अच्छा जवाब है, लेकिन मैंने @ एरिक से एक को चुना क्योंकि यह मेरी समस्या पर लागू होता है (जैसा कि मेरा पैरामीटर सामान्य रूप से वितरित नहीं किया गया है)।
अबे

@ आबे: कोई बात नहीं। यह वही है जिसके लिए चेकमार्क है। मेरा जवाब था (है) के लिए कुछ भी से अधिक, उदाहरण के लिए किया जा सकता है। मैं क्या बता सकते हैं, यह है अभी भी केवल एक ही है कि पतों प्रतीत दोनों अपने सवालों का, और (asymptotically) हो जाएगा भी परिदृश्य है कि एरिक रूपरेखा में सुधारें। (एक साल पहले उसे +1 अच्छी तरह से।) :)
कार्डिनल

s(ss)s[lcl,ucl]

1

I would focus on the SD rather than the variance, since it's on a scale that is more easily interpreted.

People do sometimes look at confidence intervals for SDs or variances, but the focus is generally on means.

The results you give for the distribution of s2/σ2 can be used to get a confidence interval for σ2 (and so also σ); most introductory math/stat texts would give the details in the same section in which the ditribution of σ2 was mentioned. I would just take 2.5% from each tail.


(This reply came here after a duplicate question, framed somewhat differently, was merged.)
whuber

1

The following solution was given by Greenwood and Sandomire in a 1950 JASA paper.

Let X1,,Xn be a random sample from a N(μ,σ2) distribution. You will make inferences about σ using as (biased) estimator the sample standard deviation

S=i=1n(XiX¯)2n1,
and you want to control the probability that the relative deviation between S and σ is within a fraction 0<u<1. That is,
Pr{S<(1u)σ}=aandPr{S>(1+u)σ}=b,
in which the significance level γ=1ab.

It follows that

Pr{(n1)S2σ2<(n1)(1u)2}=a
and
Pr{(n1)S2σ2>(n1)(1+u)2}=b.
Since the pivotal quantity (n1)S2/σ2 has χn12 distribution, adding the two probabilities, we find

γ=Fχ(n1)2((n1)(1+u)2)Fχ(n1)2((n1)(1u)2),

and the necessary sample size is found solving the former equation in n for given γ and u.

R code.

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

Output for u=10% and γ=95%.

Sample size n = 193
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.