मानक विचलन जैसा कि यहां कहीं और भी लागू है: यह डेटा के फैलाव के बारे में उपयोगी जानकारी देता है। विशेष रूप से, नमूना आकार के वर्गमूल द्वारा विभाजित एसडी एक मानक त्रुटि है: यह माध्य के नमूना वितरण के फैलाव का अनुमान लगाता है। आइए गणना करते हैं:
3.2%/10000−−−−−√=0.032%=0.00032.
यह छोटा है - यदि आप चाहते हैं तो आप तुलना में छोटे हैं ।±0.50%
हालांकि डेटा आम तौर पर वितरित नहीं किया जाता है, नमूना का अर्थ सामान्य रूप से वितरित के करीब है क्योंकि नमूना आकार बहुत बड़ा है। उदाहरण के लिए, उदाहरण के लिए, आपकी जैसी ही विशेषताओं के साथ एक नमूने का एक हिस्टोग्राम है और इसके दाईं ओर, एक ही आबादी के एक हजार अतिरिक्त नमूनों के साधनों का हिस्टोग्राम है।
यह नॉर्मल के बहुत करीब दिखता है, है ना?
इस प्रकार, हालांकि ऐसा प्रतीत होता है कि आप सही ढंग से बूटस्ट्रैपिंग कर रहे हैं, बूटस्ट्रैपिंग की आवश्यकता नहीं है: माध्य के लिए सममित विश्वास अंतराल, सामान्य मानक वितरण के उचित प्रतिशत से मानक त्रुटि को गुणा करके, सामान्य रूप से प्राप्त किया जाता है ( बुद्धि, ) और उस दूरी को माध्य के दोनों ओर ले जाना। आपके मामले में, , इसलिए विश्वास अंतराल है100−α%Z1−α/200Z1−α/200=2.575899%
(0.977−2.5758(0.032)/10000−−−−−√, 0.977+2.5758(0.032)/10000−−−−−√)=(97.62%,97.78%).
नमूना आकार को हल करने के लिए इस संबंध को सम्मिलित करके एक पर्याप्त नमूना आकार पाया जा सकता है। यहाँ यह बताता है कि आपको एक नमूना आकार की आवश्यकता है
(3.2%/(0.5%/Z1−α/200))2≈272.
यह इतना छोटा है कि हम इस निष्कर्ष की पुनः जाँच कर सकते हैं कि माध्य का नमूना वितरण सामान्य है। मैंने अपनी आबादी से नमूना लिया और इसका मतलब निकाला ( पुनरावृत्तियों के लिए):99992729999
यकीन है कि यह सामान्य है। वास्तव में, का बूटस्ट्रैप्ड विश्वास अंतराल सामान्य-सिद्धांत CI समान है ।( 97.19 % , 98.24 % )(97.16%,98.21%)(97.19%,98.24%)
इन उदाहरणों से पता चलता है, पूर्ण नमूना आकार के बजाय जनसंख्या के आकार के अनुपात में अनुमानों की सटीकता निर्धारित करता है। (एक चरम लेकिन सहज उदाहरण यह है कि समुद्री जल की एक बूंद समुद्र में नमक की एकाग्रता का सटीक अनुमान प्रदान कर सकती है, भले ही वह बूंद सभी समुद्री जल का इतना छोटा अंश हो।) आपके बताए उद्देश्यों के लिए, एक नमूना प्राप्त करना। के (जो भी अधिक की आवश्यकता है बार के एक नमूने के रूप में ज्यादा काम के रूप में ) overkill है।36 2721000036272
R
इन विश्लेषणों को करने के लिए कोड और इन ग्राफिक्स को प्लॉट करें। यह बीटा वितरण और एसडी के साथ जनसंख्या से नमूने ।0.0320.9770.032
set.seed(17)
#
# Study a sample of 10,000.
#
Sample <- rbeta(10^4, 20.4626, 0.4817)
hist(Sample)
hist(replicate(10^3, mean(rbeta(10^4, 20.4626, 0.4817))),xlab="%",main="1000 Sample Means")
#
# Analyze a sample designed to achieve a CI of width 1%.
#
(n.sample <- ceiling((0.032 / (0.005 / qnorm(1-0.005)))^2))
Sample <- rbeta(n.sample, 20.4626, 0.4817)
cat(round(mean(Sample), 3), round(sd(Sample), 3)) # Sample statistics
se.mean <- sd(Sample) / sqrt(length(Sample)) # Standard error of the mean
cat("CL: ", round(mean(Sample) + qnorm(0.005)*c(1,-1)*se.mean, 5)) # Normal CI
#
# Compare the bootstrapped CI of this sample.
#
Bootstrapped.means <- replicate(9999, mean(sample(Sample, length(Sample), replace=TRUE)))
hist(Bootstrapped.means)
cat("Bootstrap CL:", round(quantile(Bootstrapped.means, c(0.005, 1-0.005)), 5))