मानक विचलन जैसा कि यहां कहीं और भी लागू है: यह डेटा के फैलाव के बारे में उपयोगी जानकारी देता है। विशेष रूप से, नमूना आकार के वर्गमूल द्वारा विभाजित एसडी एक मानक त्रुटि है: यह माध्य के नमूना वितरण के फैलाव का अनुमान लगाता है। आइए गणना करते हैं:
3.2%/10000−−−−−√=0.032%=0.00032.
यह छोटा है - यदि आप चाहते हैं तो आप तुलना में छोटे हैं ।±0.50%
हालांकि डेटा आम तौर पर वितरित नहीं किया जाता है, नमूना का अर्थ सामान्य रूप से वितरित के करीब है क्योंकि नमूना आकार बहुत बड़ा है। उदाहरण के लिए, उदाहरण के लिए, आपकी जैसी ही विशेषताओं के साथ एक नमूने का एक हिस्टोग्राम है और इसके दाईं ओर, एक ही आबादी के एक हजार अतिरिक्त नमूनों के साधनों का हिस्टोग्राम है।

यह नॉर्मल के बहुत करीब दिखता है, है ना?
इस प्रकार, हालांकि ऐसा प्रतीत होता है कि आप सही ढंग से बूटस्ट्रैपिंग कर रहे हैं, बूटस्ट्रैपिंग की आवश्यकता नहीं है: माध्य के लिए सममित विश्वास अंतराल, सामान्य मानक वितरण के उचित प्रतिशत से मानक त्रुटि को गुणा करके, सामान्य रूप से प्राप्त किया जाता है ( बुद्धि, ) और उस दूरी को माध्य के दोनों ओर ले जाना। आपके मामले में, , इसलिए विश्वास अंतराल है100−α%Z1−α/200Z1−α/200=2.575899%
(0.977−2.5758(0.032)/10000−−−−−√, 0.977+2.5758(0.032)/10000−−−−−√)=(97.62%,97.78%).
नमूना आकार को हल करने के लिए इस संबंध को सम्मिलित करके एक पर्याप्त नमूना आकार पाया जा सकता है। यहाँ यह बताता है कि आपको एक नमूना आकार की आवश्यकता है
(3.2%/(0.5%/Z1−α/200))2≈272.
यह इतना छोटा है कि हम इस निष्कर्ष की पुनः जाँच कर सकते हैं कि माध्य का नमूना वितरण सामान्य है। मैंने अपनी आबादी से नमूना लिया और इसका मतलब निकाला ( पुनरावृत्तियों के लिए):99992729999

यकीन है कि यह सामान्य है। वास्तव में, का बूटस्ट्रैप्ड विश्वास अंतराल सामान्य-सिद्धांत CI समान है ।( 97.19 % , 98.24 % )(97.16%,98.21%)(97.19%,98.24%)
इन उदाहरणों से पता चलता है, पूर्ण नमूना आकार के बजाय जनसंख्या के आकार के अनुपात में अनुमानों की सटीकता निर्धारित करता है। (एक चरम लेकिन सहज उदाहरण यह है कि समुद्री जल की एक बूंद समुद्र में नमक की एकाग्रता का सटीक अनुमान प्रदान कर सकती है, भले ही वह बूंद सभी समुद्री जल का इतना छोटा अंश हो।) आपके बताए उद्देश्यों के लिए, एक नमूना प्राप्त करना। के (जो भी अधिक की आवश्यकता है बार के एक नमूने के रूप में ज्यादा काम के रूप में ) overkill है।36 2721000036272
Rइन विश्लेषणों को करने के लिए कोड और इन ग्राफिक्स को प्लॉट करें। यह बीटा वितरण और एसडी के साथ जनसंख्या से नमूने ।0.0320.9770.032
set.seed(17)
#
# Study a sample of 10,000.
#
Sample <- rbeta(10^4, 20.4626, 0.4817)
hist(Sample)
hist(replicate(10^3, mean(rbeta(10^4, 20.4626, 0.4817))),xlab="%",main="1000 Sample Means")
#
# Analyze a sample designed to achieve a CI of width 1%.
#
(n.sample <- ceiling((0.032 / (0.005 / qnorm(1-0.005)))^2))
Sample <- rbeta(n.sample, 20.4626, 0.4817)
cat(round(mean(Sample), 3), round(sd(Sample), 3)) # Sample statistics
se.mean <- sd(Sample) / sqrt(length(Sample)) # Standard error of the mean
cat("CL: ", round(mean(Sample) + qnorm(0.005)*c(1,-1)*se.mean, 5)) # Normal CI
#
# Compare the bootstrapped CI of this sample.
#
Bootstrapped.means <- replicate(9999, mean(sample(Sample, length(Sample), replace=TRUE)))
hist(Bootstrapped.means)
cat("Bootstrap CL:", round(quantile(Bootstrapped.means, c(0.005, 1-0.005)), 5))