क्या इस निरंतर डेटा के लिए बूटस्ट्रैपिंग उचित है?


11

मैं एक पूरी नौसिखिया हूँ :)

मैं लगभग 745,000 की आबादी से 10,000 के नमूने के आकार के साथ एक अध्ययन कर रहा हूं। प्रत्येक नमूना "प्रतिशत समानता" का प्रतिनिधित्व करता है। नमूनों में से अधिकांश 97% -98% के आसपास हैं, लेकिन कुछ 60% और 90% के बीच हैं, यानी वितरण भारी नकारात्मक रूप से तिरछा है। लगभग 0.6% परिणाम 0% हैं, लेकिन इन्हें नमूने से अलग माना जाएगा।

सभी 10,000 नमूनों का मतलब 97.7% है, और केवल एक्सेल में, स्टैडदेव 3.20 है। मैं समझता हूं कि StdDev वास्तव में यहां लागू नहीं है क्योंकि परिणाम सामान्य रूप से वितरित नहीं किए जाते हैं (और क्योंकि +3.20 आपको 100% से ऊपर रख देगा!)।

मेरे प्रश्न हैं:

  1. क्या बूटस्ट्रैपिंग (मेरे लिए एक नई अवधारणा) उपयुक्त है?
  2. क्या मैं सही ढंग से बूटस्ट्रैपिंग कर रहा हूँ :)
  3. एक पर्याप्त नमूना आकार क्या है?

मैं जो कर रहा हूं वह मेरे 10,000 परिणामों को फिर से खोलना (प्रतिस्थापन के साथ) है और एक नए अर्थ की गणना करना है। मैं इसे कुछ हज़ार बार करता हूँ और प्रत्येक माध्य को सरणी में संग्रहीत करता हूँ। मैं फिर "माध्य के साधन" की गणना करता हूं और यह मेरा सांख्यिकीय परिणाम है। 99% CI को वर्कआउट करने के लिए, मैं 0.5% -th मान और 99.5% -th मान चुनता हूँ, और यह बहुत ही तंग रेंज पैदा करता है: 97.4% - 98.0%। क्या यह एक वैध परिणाम है या मैं कुछ गलत कर रहा हूं?

नमूना आकार के लिए, मैं केवल 1.3% आबादी का नमूना ले रहा हूं - मुझे नहीं पता कि क्या यह "पर्याप्त" है। मुझे कैसे पता चलेगा कि मेरा नमूना जनसंख्या का प्रतिनिधि है? आदर्श रूप से, मैं 99% का मतलब है कि +/- 0.50% प्रतिशत अंक (यानी 97.2% - 98.2%) के प्रति आश्वस्त होना चाहूंगा।

किसी भी सुझाव के लिए अग्रिम में धन्यवाद!

जवाबों:


19

मानक विचलन जैसा कि यहां कहीं और भी लागू है: यह डेटा के फैलाव के बारे में उपयोगी जानकारी देता है। विशेष रूप से, नमूना आकार के वर्गमूल द्वारा विभाजित एसडी एक मानक त्रुटि है: यह माध्य के नमूना वितरण के फैलाव का अनुमान लगाता है। आइए गणना करते हैं:

3.2%/10000=0.032%=0.00032.

यह छोटा है - यदि आप चाहते हैं तो आप तुलना में छोटे हैं ।±0.50%

हालांकि डेटा आम तौर पर वितरित नहीं किया जाता है, नमूना का अर्थ सामान्य रूप से वितरित के करीब है क्योंकि नमूना आकार बहुत बड़ा है। उदाहरण के लिए, उदाहरण के लिए, आपकी जैसी ही विशेषताओं के साथ एक नमूने का एक हिस्टोग्राम है और इसके दाईं ओर, एक ही आबादी के एक हजार अतिरिक्त नमूनों के साधनों का हिस्टोग्राम है।

आकृति 1

यह नॉर्मल के बहुत करीब दिखता है, है ना?

इस प्रकार, हालांकि ऐसा प्रतीत होता है कि आप सही ढंग से बूटस्ट्रैपिंग कर रहे हैं, बूटस्ट्रैपिंग की आवश्यकता नहीं है: माध्य के लिए सममित विश्वास अंतराल, सामान्य मानक वितरण के उचित प्रतिशत से मानक त्रुटि को गुणा करके, सामान्य रूप से प्राप्त किया जाता है ( बुद्धि, ) और उस दूरी को माध्य के दोनों ओर ले जाना। आपके मामले में, , इसलिए विश्वास अंतराल है100α%Z1α/200Z1α/200=2.575899%

(0.9772.5758(0.032)/10000, 0.977+2.5758(0.032)/10000)=(97.62%,97.78%).

नमूना आकार को हल करने के लिए इस संबंध को सम्मिलित करके एक पर्याप्त नमूना आकार पाया जा सकता है। यहाँ यह बताता है कि आपको एक नमूना आकार की आवश्यकता है

(3.2%/(0.5%/Z1α/200))2272.

यह इतना छोटा है कि हम इस निष्कर्ष की पुनः जाँच कर सकते हैं कि माध्य का नमूना वितरण सामान्य है। मैंने अपनी आबादी से नमूना लिया और इसका मतलब निकाला ( पुनरावृत्तियों के लिए):99992729999

चित्र 2

यकीन है कि यह सामान्य है। वास्तव में, का बूटस्ट्रैप्ड विश्वास अंतराल सामान्य-सिद्धांत CI समान है ।( 97.19 % , 98.24 % )(97.16%,98.21%)(97.19%,98.24%)

इन उदाहरणों से पता चलता है, पूर्ण नमूना आकार के बजाय जनसंख्या के आकार के अनुपात में अनुमानों की सटीकता निर्धारित करता है। (एक चरम लेकिन सहज उदाहरण यह है कि समुद्री जल की एक बूंद समुद्र में नमक की एकाग्रता का सटीक अनुमान प्रदान कर सकती है, भले ही वह बूंद सभी समुद्री जल का इतना छोटा अंश हो।) आपके बताए उद्देश्यों के लिए, एक नमूना प्राप्त करना। के (जो भी अधिक की आवश्यकता है बार के एक नमूने के रूप में ज्यादा काम के रूप में ) overkill है।36 2721000036272


Rइन विश्लेषणों को करने के लिए कोड और इन ग्राफिक्स को प्लॉट करें। यह बीटा वितरण और एसडी के साथ जनसंख्या से नमूने ।0.0320.9770.032

set.seed(17)
#
# Study a sample of 10,000.
#
Sample <- rbeta(10^4, 20.4626, 0.4817)
hist(Sample)
hist(replicate(10^3, mean(rbeta(10^4, 20.4626, 0.4817))),xlab="%",main="1000 Sample Means")
#
# Analyze a sample designed to achieve a CI of width 1%.
#
(n.sample <- ceiling((0.032 / (0.005 / qnorm(1-0.005)))^2))
Sample <- rbeta(n.sample, 20.4626, 0.4817)
cat(round(mean(Sample), 3), round(sd(Sample), 3)) # Sample statistics
se.mean <- sd(Sample) / sqrt(length(Sample))      # Standard error of the mean
cat("CL: ", round(mean(Sample) + qnorm(0.005)*c(1,-1)*se.mean, 5)) # Normal CI
#
# Compare the bootstrapped CI of this sample.
#
Bootstrapped.means <- replicate(9999, mean(sample(Sample, length(Sample), replace=TRUE)))
hist(Bootstrapped.means)
cat("Bootstrap CL:", round(quantile(Bootstrapped.means, c(0.005, 1-0.005)), 5))

2
मुझे पता है यह पोस्ट काफी पुरानी है लेकिन यह बेहद मददगार है। अपना ज्ञान साझा करने के लिए आपका धन्यवाद।
RDizzl3
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.