बूटस्ट्रैपिंग नमूना वितरण की एक अधिक मजबूत तस्वीर प्राप्त करने के लिए की जाती है, जो कि बड़े नमूना सिद्धांत द्वारा ग्रहण की जाती है। जब आप बूटस्ट्रैप करते हैं, तो प्रभावी रूप से आपके द्वारा लिए गए `बूस्टेम्पल्स 'की संख्या की कोई सीमा नहीं होती है; वास्तव में आप नमूने के वितरण के लिए एक बेहतर सन्निकटन प्राप्त करते हैं जो आपके द्वारा लिए गए अधिक बूटलैम्पस हैं। बूटमैंस का उपयोग करना आम है , हालाँकि उस संख्या के बारे में कुछ भी जादुई नहीं है। इसके अलावा, आप बूब्स पर परीक्षण नहीं चलाते हैं; आपके पास नमूना वितरण का एक अनुमान है - इसे सीधे उपयोग करें। यहाँ एक एल्गोरिथ्म है:B=10,000
- प्रतिस्थापन के साथ बूट-अवलोकनों के नमूने द्वारा सेट किए गए एक डेटा का एक । [नीचे दी गई टिप्पणियों के संबंध में, एक प्रासंगिक सवाल यह है कि आपके बूटप्ले के लिए उपयोग करने के लिए एक वैध 'बूट-अवलोकन' क्या है। वास्तव में, कई वैध दृष्टिकोण हैं; मैं उन दो का उल्लेख करूंगा जो मजबूत हैं और आपको अपने डेटा की संरचना को प्रतिबिंबित करने की अनुमति देते हैं: जब आपके पास अवलोकन डेटा होता है (यानी, डेटा सभी आयामों पर नमूना लिया गया था, एक बूट-अवलोकन एक आदेशित n-tuple हो सकता है (जैसे, एक पंक्ति) आपके डेटा सेट से)। उदाहरण के लिए, यदि आपके पास एक चर और एक प्रतिक्रिया चर है, तो आप नमूनाn1n1 (x,y)मंगाए गए जोड़े। दूसरी ओर, जब प्रायोगिक डेटा के साथ काम करते हैं, तो भविष्यवक्ता चर मानों का नमूना नहीं लिया गया था, लेकिन प्रायोगिक इकाइयों को प्रत्येक पूर्वानुमान चर के इच्छित स्तरों को सौंपा गया था। इस तरह से एक मामले में, आप अपने चर के स्तरों में से प्रत्येक से मान का नमूना सकते हैं , फिर उन को उस पूर्वसूचक स्तर के संबंधित मान के साथ जोड़ सकते हैं । इस तरीके से, आप से अधिक नमूना नहीं लेंगे ।]n1j yjyX
- अपने प्रतिगमन मॉडल को फिट करें और ढलान अनुमान को स्टोर करें (इसे )β^1
- प्रतिस्थापन के साथ बूट-अवलोकनों के नमूने द्वारा सेट किए गए अन्य डेटा का एक बूटप्लांट लेंn2
- अन्य प्रतिगमन मॉडल को फिट करें और ढलान अनुमान को स्टोर करें (इसे )β^2
- दो अनुमानों से एक आँकड़ा (सुझाव: ढलान अंतर )β^1−β^2
- स्टैटिस्टिक स्टोर करें और अन्य जानकारी को डंप करें ताकि मेमोरी को बर्बाद न करें
- दोहराएँ चरण 1 - 6, बारB=10,000
- ढलान अंतर के बूटस्ट्रैप्ड नमूनाकरण वितरण को सॉर्ट करें
- 0 ओवरलेप करने वाले bsd के% की गणना करें (जो भी छोटा हो, दाएं पूंछ% या बाईं पूंछ%)
- इस प्रतिशत को 2 से गुणा करें
इस एल्गोरिथ्म का एक सांख्यिकीय परीक्षण के रूप में तर्क मूल रूप से शास्त्रीय परीक्षणों (जैसे, टी-परीक्षण) के समान है, लेकिन आप डेटा या परिणामी नमूना वितरण को कोई विशेष वितरण नहीं मान रहे हैं। (उदाहरण के लिए, आप सामान्यता नहीं मान रहे हैं।) आप जो प्राथमिक धारणा बना रहे हैं, वह यह है कि आपका डेटा उस आबादी का प्रतिनिधि है जिसे आप सामान्यीकृत करना चाहते हैं। अर्थात्, नमूना वितरण जनसंख्या वितरण के समान है। ध्यान दें, यदि आपका डेटा उस आबादी से संबंधित नहीं है, जिसमें आप रुचि रखते हैं, तो आप भाग्य से बाहर हैं।
कुछ लोग उपयोग करने के बारे में चिंता करते हैं, उदाहरण के लिए, ढलान का निर्धारण करने के लिए एक प्रतिगमन मॉडल यदि आप सामान्यता मानने के लिए तैयार नहीं हैं। हालांकि, यह चिंता गलत है। गॉस-मार्कोव प्रमेय हमें बताता है कि अनुमान निष्पक्ष है (यानी, वास्तविक मूल्य पर केंद्रित), इसलिए यह ठीक है। सामान्यता की कमी का मतलब है कि सही नमूना वितरण सैद्धांतिक रूप से प्रस्तुत एक से अलग हो सकता है, और इसलिए पी-मान अमान्य हैं। बूटस्ट्रैपिंग प्रक्रिया आपको इस समस्या से निपटने का एक तरीका देती है।
बूटस्ट्रैपिंग के संबंध में दो अन्य मुद्दे: यदि शास्त्रीय मान्यताओं को पूरा किया जाता है, तो बूटस्ट्रैपिंग एक पैरामीट्रिक परीक्षण की तुलना में कम कुशल (यानी, कम शक्ति) है। दूसरा, बूटस्ट्रैपिंग सबसे अच्छा काम करता है जब आप एक वितरण के केंद्र के पास खोज कर रहे हैं: साधन और मंझला अच्छा है, चतुर्थक इतना अच्छा नहीं है, न्यूनतम या अधिकतम बूटस्ट्रैपिंग विफल हो जाती है। पहले बिंदु के संबंध में, आपको अपनी स्थिति में बूटस्ट्रैप करने की आवश्यकता नहीं हो सकती है; दूसरे बिंदु के बारे में, ढलान को बूटस्ट्रैप करना पूरी तरह से ठीक है।