कोई बूटस्ट्रैपिंग - क्या कोई मुझे आरंभ करने के लिए एक सरल स्पष्टीकरण प्रदान कर सकता है?


9

बूटस्ट्रैपिंग के बारे में पढ़ने के कई प्रयासों के बावजूद, मैं हमेशा ईंट की दीवार से टकराता हूं। मुझे आश्चर्य है कि अगर कोई बूटस्ट्रैपिंग की एक गैर-तकनीकी परिभाषा दे सकता है?

मुझे पता है कि इस मंच में मुझे पूरी तरह से समझने में सक्षम बनाने के लिए पर्याप्त विवरण प्रदान करना संभव नहीं है, लेकिन बूटस्ट्रैपिंग के मुख्य लक्ष्य और तंत्र के साथ सही दिशा में एक सौम्य धक्का बहुत सराहना की जाएगी! धन्यवाद।

जवाबों:


8

बूटस्ट्रैपिंग पर विकिपीडिया प्रविष्टि वास्तव में बहुत अच्छी है:

http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29

बूटस्ट्रैपिंग का सबसे आम कारण तब लागू किया जाता है जब अंतर्निहित वितरण का वह रूप जिससे एक नमूना लिया जाता है अज्ञात है। परंपरागत रूप से सांख्यिकीविद एक सामान्य वितरण मानते हैं (केंद्रीय सीमा प्रमेय से संबंधित बहुत अच्छे कारणों के लिए), लेकिन सामान्य वितरण सिद्धांत के माध्यम से अनुमानित आंकड़े (जैसे मानक विचलन, आत्मविश्वास अंतराल, शक्ति गणना आदि) अंतर्निहित जनसंख्या वितरण के अनुसार केवल सख्ती से मान्य हैं। सामान्य।

नमूना को बार-बार पुन: नमूना करके, बूटस्ट्रैपिंग उन अनुमानों को सक्षम करता है जो वितरण स्वतंत्र हैं। मूल नमूने के पारंपरिक रूप से प्रत्येक "पुनरावर्तन" बेतरतीब ढंग से मूल नमूने में टिप्पणियों की समान संख्या का चयन करता है। हालाँकि ये प्रतिस्थापन के साथ चुने गए हैं। यदि नमूने में एन अवलोकन हैं, तो प्रत्येक बूटस्ट्रैप के नमूने में एन अवलोकन होंगे, जिसमें कई मूल नमूने दोहराए गए हैं और कई को बाहर रखा गया है।

ब्याज का पैरामीटर (उदाहरण। अनुपात अनुपात आदि) तब प्रत्येक बूटस्ट्रैप्ड नमूने से अनुमानित किया जा सकता है। बूटस्ट्रैप को दोहराते हुए कहते हैं कि 1000 बार "माध्यिका" का अनुमान है और 2.5 वीं, 50 वीं और 97.5 वीं प्रतिशताइल का चयन करके आंकड़े (जैसे बाधाओं) पर 95% विश्वास अंतराल है।


8

अमेरिकन साइंटिस्ट ने हाल ही में कॉस्मा शालिज़ी द्वारा बूटस्ट्रैप पर एक अच्छा लेख लिखा था , जो पढ़ने में काफी आसान है और आपको अवधारणा को समझने के लिए आवश्यक जानकारी देता है।


7

बहुत व्यापक रूप से: अंतर्ज्ञान, साथ ही नाम की उत्पत्ति ("बूटस्ट्रैप्स द्वारा अपने आप को खींचना"), अवलोकन से प्राप्त होता है कि एक जनसंख्या के बारे में निष्कर्ष निकालने के लिए नमूने के गुणों का उपयोग करते हुए ("उलटा" सांख्यिकीय की समस्या) अनुमान), हम उम्मीद करते हैं। उस त्रुटि की प्रकृति का पता लगाने के लिए, अपने आप में नमूने को जनसंख्या के रूप में मानें और अध्ययन करें कि जब आप इससे नमूने लेते हैं तो आपकी हीन प्रक्रिया कैसे काम करती है। यह एक "आगे" समस्या है: आप अपने नमूने के बारे में सभी जानते हैं- योग्यता-पॉपुलेशन और इसके बारे में कुछ भी अनुमान नहीं लगाना है। आपका अध्ययन सुझाव देगा कि (a) आपकी हीन प्रक्रिया को किस हद तक पूर्वाग्रहित किया जा सकता है और (b) आपकी प्रक्रिया की सांख्यिकीय त्रुटि का आकार और प्रकृति। इसलिए, अपने मूल अनुमानों को समायोजित करने के लिए इस जानकारी का उपयोग करें। कई (लेकिन निश्चित रूप से सभी नहीं) स्थितियों में, समायोजित पूर्वाग्रह बहुत कम है।

इस योजनाबद्ध विवरण द्वारा प्रदान की गई एक अंतर्दृष्टि यह है कि बूटस्ट्रैपिंग के लिए अनुकरण या दोहराई जाने वाली सबमिशनिंग की आवश्यकता नहीं होती है : वे सिर्फ सर्वव्यापी, कम्प्यूटेशनल रूप से ट्रैक्टेबल तरीकों से किसी भी प्रकार की सांख्यिकीय प्रक्रिया का अध्ययन करने के लिए होते हैं, जब आबादी ज्ञात होती है। बहुत सारे बूटस्ट्रैप अनुमान मौजूद हैं जिन्हें गणितीय रूप से गणना की जा सकती है।

यह उत्तर पीटर हॉल की पुस्तक "द बूटस्ट्रैप और एजगर्थ एक्सपेंशन" (स्प्रिंगर 1992) के लिए बहुत अधिक है, विशेष रूप से बूटस्ट्रैपिंग के "मुख्य सिद्धांत" के बारे में।


मुझे यह "मूल" दृष्टिकोण (जैसे अन्य प्रविष्टियाँ) पसंद है। फिर भी, मैं हमेशा मुश्किल क्यों बूटस्ट्रैप व्यवहार में काम करता है समझाने के लिए लगता है ...
CHL

4

बूटस्ट्रैपिंग पर विकि निम्नलिखित विवरण देता है:

बूटस्ट्रैपिंग से एक एकल सांख्यिकीय के कई वैकल्पिक संस्करणों को इकट्ठा करने की अनुमति मिलती है जो आमतौर पर एक नमूने से गणना की जाएगी। उदाहरण के लिए, मान लें कि हम दुनिया भर में लोगों की ऊंचाई में रुचि रखते हैं। जैसा कि हम सभी जनसंख्या को माप नहीं सकते हैं, हम इसका केवल एक छोटा सा हिस्सा नमूना लेते हैं। उस नमूने से केवल एक आँकड़ा का एक मान प्राप्त किया जा सकता है, अर्थात एक माध्य या एक मानक विचलन आदि, और इसलिए हम यह नहीं देखते हैं कि वह आँकड़ा कितना भिन्न होता है। बूटस्ट्रैपिंग का उपयोग करते समय, हम एन नमूना डेटा के बाहर n ऊंचाइयों का एक नया नमूना बेतरतीब ढंग से निकालते हैं, जहां प्रत्येक व्यक्ति को सबसे अधिक बार चुना जा सकता है। कई बार ऐसा करने से, हम बड़ी संख्या में डेटासेट बनाते हैं, जिन्हें हमने इनमें से प्रत्येक डेटासेट के लिए आँकड़ा देखा और गणना की है। इस प्रकार हमें आंकड़े के वितरण का अनुमान मिलता है।

यदि आप स्पष्ट कर सकते हैं कि उपरोक्त विवरण के किस भाग को आप नहीं समझते हैं तो मैं और अधिक विवरण प्रदान करूँगा।


4

मैं इसे इस प्रकार से सोचना पसंद करता हूं: यदि आप किसी आबादी से यादृच्छिक नमूना डेटा प्राप्त करते हैं, तो संभवतः नमूना के पास ऐसे लक्षण होंगे जो स्रोत की आबादी से लगभग मेल खाते हैं। इसलिए, यदि आप वितरण की किसी विशेष विशेषता पर विश्वास अंतराल प्राप्त करने में रुचि रखते हैं, तो उदाहरण के लिए इसका तिरछापन, आप नमूने को एक छद्म आबादी के रूप में मान सकते हैं जिससे आप यादृच्छिक छद्म नमूनों के कई सेट प्राप्त कर सकते हैं, कंप्यूटिंग प्रत्येक में ब्याज की सुविधा का मूल्य। यह धारणा कि मूल नमूना जनसंख्या से मोटे तौर पर मेल खाता है, इसका मतलब यह है कि आप छद्म आबादी को "प्रतिस्थापन के साथ" से नमूना करके छद्म नमूने प्राप्त कर सकते हैं (उदाहरण के लिए। आप एक मूल्य का नमूना लेते हैं, इसे रिकॉर्ड करते हैं, फिर इसे वापस डालते हैं; इस प्रकार प्रत्येक मान; कई बार देखे जाने की संभावना है।)


3

बूटस्ट्रैप अनिवार्य रूप से दोहराए जाने वाले प्रयोग का अनुकरण है; मान लें कि आपके पास गेंदों के साथ एक बॉक्स है, एक गेंद का औसत आकार प्राप्त करना चाहते हैं - इसलिए आप उनमें से कुछ को आकर्षित करते हैं, मापते हैं और एक मतलब लेते हैं। अब आप इसे वितरण प्राप्त करने के लिए दोहराना चाहते हैं, उदाहरण के लिए एक मानक विचलन पाने के लिए - लेकिन आपको पता चला कि किसी ने बॉक्स चुरा लिया है।
अब जो किया जा सकता है उसका उपयोग करना है - माप की यह एक श्रृंखला। यह विचार है कि गेंदों को नए बॉक्स में रखा जाए और प्रतिस्थापन के साथ गेंदों की समान संख्या को खींचकर मूल प्रयोग का अनुकरण किया जाए - दोनों में समान नमूना आकार और कुछ परिवर्तनशीलता हो। अब इसे कई बार दोहराया जा सकता है ताकि साधनों की एक श्रृंखला प्राप्त की जा सके जिसका उपयोग अंत में औसत वितरण को अनुमानित करने के लिए किया जा सकता है।


3

यह बूटस्ट्रैपिंग का सार है: अपने डेटा के विभिन्न नमूनों को लेना, प्रत्येक नमूने के लिए एक आँकड़ा प्राप्त करना (जैसे, माध्य, माध्य, सहसंबंध, प्रतिगमन गुणांक इत्यादि), और नमूनों के पारगमन में परिवर्तनशीलता का उपयोग करके कुछ के बारे में संकेत करना। मानक त्रुटि और आँकड़ों के लिए विश्वास अंतराल। - बूटस्ट्रैपिंग और आर में बूट पैकेज

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.