क्या किसी डेटासेट के विचरण के लिए एक विश्वास अंतराल की गणना करने के लिए बूटस्ट्रैप का उपयोग किया जा सकता है?


9

मुझे पता है कि यदि आप कई बार सेट किए गए डेटा से पुनः नमूना लेते हैं और प्रत्येक बार माध्य की गणना करते हैं, तो ये साधन एक सामान्य वितरण (सीएलटी द्वारा) का पालन करेंगे। इस प्रकार, आप डेटा सेट की संभाव्यता वितरण पर कोई अनुमान लगाए बिना डेटा सेट के माध्यम पर एक विश्वास अंतराल की गणना कर सकते हैं।

मैं सोच रहा था कि क्या आप विचरण के लिए कुछ ऐसा ही कर सकते हैं। यही है, अगर मैं एक डेटा सेट से कई बार फिर से नमूना लेने और हर बार विचरण की गणना करने के लिए था, तो क्या ये संस्करण एक निश्चित वितरण का पालन करेंगे (डेटा सेट की मूल संभावना वितरण की परवाह किए बिना)?

मुझे पता है कि यदि वह मूल डेटा सेट सामान्य है, तो संस्करण एक ची-स्क्वर्ट वितरण का अनुसरण करेंगे। लेकिन इस मामले में क्या है कि यह सामान्य नहीं है?

जवाबों:


10

क्या डेटा सेट की भिन्नता के लिए कॉन्फिडेंस इंटरवल की गणना के लिए बूटस्ट्रैप रेज़म्पलिंग का उपयोग किया जा सकता है?

हाँ, बस के रूप में कई अन्य आँकड़ों के साथ।

मुझे पता है कि यदि आप कई बार सेट किए गए डेटा से पुनः नमूना लेते हैं और प्रत्येक बार माध्य की गणना करते हैं, तो ये साधन एक सामान्य वितरण (सीएलटी द्वारा) का पालन करेंगे।

यह हमेशा ऐसा नहीं होता है कि यदि आप बूटस्ट्रैप का अर्थ बूटस्ट्रैप करते हैं तो सामान्य वितरण का पालन करेंगे, यहां तक ​​कि उन वितरणों के लिए भी जिनके लिए CLT लागू होता है।

यहाँ एक उदाहरण है जहाँ मैंने आकार के नमूने के लिए माध्य को फिर से लिखा है n=100, जहां मैंने 10000 बार बदला था:

यहाँ छवि विवरण दर्ज करें

यह दूर से सामान्य नहीं है।

मूल नमूने में निन्यानबे '0' मान और '1', '2' और '100' शामिल हैं।

यहाँ (R) कोड मैं ऊपर प्लॉट जनरेट करने के लिए चला गया:

 x <- c(rep(0,97),1,2,100)
 y <- replicate(10000,mean(sample(x,replace=TRUE)))
 plot(table(y),type="h")

समस्या यह है कि इस मामले में नमूना आकार (100) CLT के लिए इस प्रकार के वितरण आकार के साथ लागू करने के लिए बहुत छोटा है; इससे कोई फर्क नहीं पड़ता कि कितनी बार हम इसे फिर से बनाते हैं।

हालाँकि, यदि मूल नमूना का आकार बहुत बड़ा है, तो नमूना के पुनः वितरण का अर्थ कुछ इस तरह से होगा कि यह अधिक सामान्य-दिखने वाला होगा (हालांकि हमेशा असतत)।

उपरोक्त डेटा (काले) को फिर से मापते समय और समान अनुपात में मूल्यों के साथ, लेकिन दस गुना अधिक मान (लाल; यानी n = 1000) के साथ यहां एक्दफ्स हैं:

यहाँ छवि विवरण दर्ज करें

जैसा कि हम देखते हैं, बड़े नमूने को फिर से खोलते समय वितरण फ़ंक्शन बहुत अधिक सामान्य दिखता है।

यदि मैं एक डेटा सेट से कई बार फिर से नमूना लेने और हर बार विचरण की गणना करने के लिए था, तो क्या ये संस्करण एक निश्चित वितरण का पालन करेंगे

नहीं, एक ही कारण से यह जरूरी नहीं है कि यह माध्य के लिए सही हो।

हालाँकि, CLT भी विचरण * पर लागू होता है; यह सिर्फ इतना है कि आप यह तर्क नहीं दे सकते हैं कि सीएलटी केवल कई resamples को ले कर बूटस्ट्रैप रेज़म्पलिंग पर लागू होता है। यदि मूल नमूना का आकार पर्याप्त रूप से बड़ा है, तो वह (सही परिस्थितियों में) साधन (और उच्चतर क्षण, यदि वे मौजूद हैं) का पुनः वितरण वितरण करने के लिए करते हैं, तो अपेक्षाकृत एक सामान्य वितरण के करीब है (छोटे नमूनों में इसके वितरण के सापेक्ष) कम से कम)।

* यदि आम तौर पर सीएलटी विचरण पर लागू होता है (यदि उपयुक्त क्षण मौजूद हैं) यदि आप विचार करें तो यह सहज है sn2=1ni=1n(xix¯)2। चलोyi=(xix¯)2; फिरsn2=y¯, तो अगर CLT पर लागू होता है y-परिवर्तनीय, इसे लागू किया जा सकता है sn2। अभीरोंn-12 का एक छोटा संस्करण है रोंn2; यदि CLT लागू होता हैरोंn2 यह लागू होगा रोंn-12। एक तर्क की यह रूपरेखा पूरी तरह से ठोस नहीं है, हालांकि, और कुछ अपवाद भी हैं, जिनकी आप पहले उम्मीद नहीं कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.