क्या डेटा सेट की भिन्नता के लिए कॉन्फिडेंस इंटरवल की गणना के लिए बूटस्ट्रैप रेज़म्पलिंग का उपयोग किया जा सकता है?
हाँ, बस के रूप में कई अन्य आँकड़ों के साथ।
मुझे पता है कि यदि आप कई बार सेट किए गए डेटा से पुनः नमूना लेते हैं और प्रत्येक बार माध्य की गणना करते हैं, तो ये साधन एक सामान्य वितरण (सीएलटी द्वारा) का पालन करेंगे।
यह हमेशा ऐसा नहीं होता है कि यदि आप बूटस्ट्रैप का अर्थ बूटस्ट्रैप करते हैं तो सामान्य वितरण का पालन करेंगे, यहां तक कि उन वितरणों के लिए भी जिनके लिए CLT लागू होता है।
यहाँ एक उदाहरण है जहाँ मैंने आकार के नमूने के लिए माध्य को फिर से लिखा है n = 100, जहां मैंने 10000 बार बदला था:
यह दूर से सामान्य नहीं है।
मूल नमूने में निन्यानबे '0' मान और '1', '2' और '100' शामिल हैं।
यहाँ (R) कोड मैं ऊपर प्लॉट जनरेट करने के लिए चला गया:
x <- c(rep(0,97),1,2,100)
y <- replicate(10000,mean(sample(x,replace=TRUE)))
plot(table(y),type="h")
समस्या यह है कि इस मामले में नमूना आकार (100) CLT के लिए इस प्रकार के वितरण आकार के साथ लागू करने के लिए बहुत छोटा है; इससे कोई फर्क नहीं पड़ता कि कितनी बार हम इसे फिर से बनाते हैं।
हालाँकि, यदि मूल नमूना का आकार बहुत बड़ा है, तो नमूना के पुनः वितरण का अर्थ कुछ इस तरह से होगा कि यह अधिक सामान्य-दिखने वाला होगा (हालांकि हमेशा असतत)।
उपरोक्त डेटा (काले) को फिर से मापते समय और समान अनुपात में मूल्यों के साथ, लेकिन दस गुना अधिक मान (लाल; यानी n = 1000) के साथ यहां एक्दफ्स हैं:
जैसा कि हम देखते हैं, बड़े नमूने को फिर से खोलते समय वितरण फ़ंक्शन बहुत अधिक सामान्य दिखता है।
यदि मैं एक डेटा सेट से कई बार फिर से नमूना लेने और हर बार विचरण की गणना करने के लिए था, तो क्या ये संस्करण एक निश्चित वितरण का पालन करेंगे
नहीं, एक ही कारण से यह जरूरी नहीं है कि यह माध्य के लिए सही हो।
हालाँकि, CLT भी विचरण * पर लागू होता है; यह सिर्फ इतना है कि आप यह तर्क नहीं दे सकते हैं कि सीएलटी केवल कई resamples को ले कर बूटस्ट्रैप रेज़म्पलिंग पर लागू होता है। यदि मूल नमूना का आकार पर्याप्त रूप से बड़ा है, तो वह (सही परिस्थितियों में) साधन (और उच्चतर क्षण, यदि वे मौजूद हैं) का पुनः वितरण वितरण करने के लिए करते हैं, तो अपेक्षाकृत एक सामान्य वितरण के करीब है (छोटे नमूनों में इसके वितरण के सापेक्ष) कम से कम)।
* यदि आम तौर पर सीएलटी विचरण पर लागू होता है (यदि उपयुक्त क्षण मौजूद हैं) यदि आप विचार करें तो यह सहज है रों2n=1nΣnमैं = १(एक्समैं-एक्स¯)2। चलोyमैं= (एक्समैं-एक्स¯)2; फिररों2n=y¯, तो अगर CLT पर लागू होता है y-परिवर्तनीय, इसे लागू किया जा सकता है रों2n। अभीरों2एन - 1 का एक छोटा संस्करण है रों2n; यदि CLT लागू होता हैरों2n यह लागू होगा रों2एन - 1। एक तर्क की यह रूपरेखा पूरी तरह से ठोस नहीं है, हालांकि, और कुछ अपवाद भी हैं, जिनकी आप पहले उम्मीद नहीं कर सकते हैं।