छंटनी करने वालों को समझाते हुए कि बूटस्ट्रैपिंग क्यों काम करती है


326

मैंने हाल ही में एक परियोजना के लिए विश्वास अंतराल का अनुमान लगाने के लिए बूटस्ट्रैपिंग का इस्तेमाल किया। कोई व्यक्ति जो हाल ही में आँकड़ों के बारे में ज्यादा नहीं जानता है, उसने मुझे बताया है कि मैं क्यों समझाऊँ बूटस्ट्रैपिंग काम करता है, अर्थात, ऐसा क्यों है कि एक ही नमूने को बार-बार फिर से सेट करने से अच्छे परिणाम मिलते हैं। मुझे एहसास हुआ कि हालांकि मैंने यह समझने में बहुत समय बिताया है कि इसका उपयोग कैसे किया जाए, मैं वास्तव में नहीं समझता कि बूटस्ट्रैपिंग क्यों काम करता है।

विशेष रूप से: यदि हम अपने नमूने से पुन: नमूना कर रहे हैं, तो यह कैसे है कि हम केवल नमूने के बारे में नहीं बल्कि जनसंख्या के बारे में कुछ सीख रहे हैं? वहाँ एक छलांग लगती है जो कुछ हद तक प्रति-सहज होती है।

मुझे इस प्रश्न के कुछ उत्तर यहाँ मिले हैं जिन्हें मैं आधा समझता हूँ। विशेष रूप से यह एक । मैं सांख्यिकीविदों का "उपभोक्ता" हूं, न कि सांख्यिकीविद् का, और मैं ऐसे लोगों के साथ काम करता हूं, जो आंकड़ों की तुलना में बहुत कम जानते हैं। तो, क्या कोई समझा सकता है, प्रमेयों के संदर्भ के साथ, आदि, बूटस्ट्रैप के पीछे मूल तर्क? यही है, अगर आपको इसे अपने पड़ोसी को समझाना था, तो आप क्या कहेंगे?


13
(+1) आप उन सवालों का संक्षेप में उल्लेख कर सकते हैं जिन्हें आपने देखा है, लेकिन यह आपको संतुष्ट नहीं करते हैं। यहां बूटस्ट्रैप पर बहुत सारे सवाल हैं। :)
कार्डिनल

@ कार्डिनल धन्यवाद, मैंने मूल पोस्ट को अपडेट किया। उम्मीद है कि यह अधिक स्पष्ट है। :)
एलन एच।

5
ध्यान देने वाली एक बात - बूटस्ट्रैपिंग पदानुक्रमिक रूप से संरचित डेटा के लिए आसानी से काम नहीं करता है - जैसे कि बहु-स्तरीय मॉडल और बहु-चरण नमूनाकरण डिज़ाइन। "कौन सा बूटस्ट्रैप है" यह जानने के लिए आपको बहुत भ्रमित होना चाहिए।
प्रोबेबिलिसलॉजिक

2
असल में, बूटस्ट्रैप काम करता है क्योंकि यह गैर-समरूप अधिकतम संभावना है। इसलिए, जब अधिकतम संभावना के साथ समस्याएं होती हैं, तो आप बूटस्ट्रैप के साथ समस्याओं की उम्मीद कर सकते हैं।
kjetil b halvorsen

3
जेक वेंडरपलास ने बूटकैपिंग और कुछ अन्य संबंधित तकनीकों के बारे में PyCon 16 में शानदार बातचीत की। देखें स्लाइड स्लाइड 71 और पर शुरू वीडियो रिकॉर्डिंग
thm

जवाबों:


198

fwiw मध्यम लंबाई संस्करण जो मैं आमतौर पर देता हूं वह इस प्रकार है:

आप जनसंख्या का प्रश्न पूछना चाहते हैं लेकिन आप नहीं कर सकते। इसलिए आप एक नमूना लें और उसके बजाय इसका प्रश्न पूछें। अब, आपको कितना आश्वस्त होना चाहिए कि नमूना उत्तर जनसंख्या जवाब के करीब है जाहिर है जनसंख्या की संरचना पर निर्भर करता है। एक तरीका यह है कि आप इसके बारे में जान सकते हैं कि बार-बार जनसंख्या से नमूने लेने के लिए, उनसे सवाल पूछें, और देखें कि नमूना उत्तरों को कैसे चरना है। चूंकि यह संभव नहीं है, आप या तो आबादी के आकार के बारे में कुछ धारणा बना सकते हैं , या आप उस नमूने के बारे में जानकारी का उपयोग कर सकते हैं जिसे आपको वास्तव में इसके बारे में सीखना है।

कल्पना कीजिए कि आप अनुमान लगाने का निर्णय लेते हैं, उदाहरण के लिए कि यह सामान्य है, या बर्नौली या कुछ अन्य सुविधाजनक कल्पना है। पिछली रणनीति के बाद आप फिर से जान सकते हैं कि किसी नमूने के बारे में पूछे जाने पर आपके प्रश्न का उत्तर कितना भिन्न हो सकता है, यह इस बात पर निर्भर करता है कि आपके द्वारा प्राप्त किए गए एक ही आकार के नमूनों को बार-बार प्राप्त करने के लिए आपके द्वारा किए गए विशेष नमूने के आधार पर क्या हो सकता है। सवाल। यह उस सीमा तक सीधा होगा जहां आपने कम्प्यूटेशनल रूप से सुविधाजनक धारणाएं चुनी हैं। ( विशेष रूप से सुविधाजनक मान्यताओं के साथ-साथ गैर-तुच्छ गणित आपको नमूना भाग को पूरी तरह से बायपास करने की अनुमति दे सकता है, लेकिन हम जानबूझकर यहां उपेक्षा करेंगे।)

यह एक अच्छा विचार लगता है बशर्ते आप मान्यताओं को बनाने के लिए खुश हों। कल्पना कीजिए आप नहीं हैं। एक विकल्प यह है कि आपके पास जो सैंपल है, उसकी जगह सैंपल लें। आप ऐसा कर सकते हैं क्योंकि आपके पास जो नमूना है वह भी आबादी है, बस एक बहुत छोटा असतत है; यह आपके डेटा के हिस्टोग्राम जैसा दिखता है। नमूना 'प्रतिस्थापन के साथ' नमूना का इलाज करने के लिए सिर्फ एक सुविधाजनक तरीका है जैसे कि यह आबादी है और एक तरह से नमूना है जो इसके आकार को दर्शाता है।

यह करने के लिए एक उचित बात है क्योंकि न केवल नमूना आपके पास सबसे अच्छा है, वास्तव में एकमात्र जानकारी आपके पास है जिसके बारे में आबादी वास्तव में कैसी दिखती है, बल्कि इसलिए भी कि अधिकांश नमूने, यदि वे यादृच्छिक रूप से चुने गए हैं, तो काफी पसंद है जनसंख्या वे से आया था। नतीजतन यह संभावना है कि तुम्हारा भी करता है।

अंतर्ज्ञान के लिए यह सोचना महत्वपूर्ण है कि आप विभिन्न तरीकों और विभिन्न मान्यताओं पर उत्पन्न होने वाली नमूना जानकारी एकत्र करके परिवर्तनशीलता के बारे में कैसे सीख सकते हैं। पूरी तरह से बंद फार्म की संभावना को नजरअंदाज करते हुए गणितीय समाधान इस बारे में स्पष्ट होने के लिए महत्वपूर्ण है।


5
अच्छा जवाब। मुझे विशेष रूप से प्रचलित पैराग्राफ पसंद है।
पीटर Flom

19
(+1) यह एक अच्छा उत्तर है। मुझे लगता है कि एक बहुत महत्वपूर्ण बिंदु को आगे बढ़ाने का एक तरीका हो सकता है, हालांकि। जिस तरह से बूटस्ट्रैप को सामान्य रूप से किया जाता है, उसमें दो प्रभाव होते हैं। सबसे पहले, हम दिखावा कर रहे हैं कि हमने जो नमूना प्राप्त किया है वह हमारी आबादी के लिए एक प्रॉक्सी है। यह नाममात्र करने के लिए एक उचित बात है, बशर्ते कि हमारा नमूना आकार काफी बड़ा हो। हालाँकि, आमतौर पर हमारे पास एक कठिन समय होता है, जो कि प्रेटेंड डिस्ट्रीब्यूशन से मिलने वाले ब्याज की वास्तविक मात्रा की गणना करता है। इसलिए , हमें उनका अनुमान लगाना होगा, और यही कारण है कि हम बहुत सारे बूटस्ट्रैप नमूने खींचते हैं। यदि हम ... / ...
कार्डिनल

11
... / ... ब्याज की मात्रा की गणना सीधे हमारे ढोंग वितरण के लिए करें, हम ऐसा करना पसंद करेंगे। और, यही असली बूटस्ट्रैप होगा। लेकिन, आमतौर पर हम नहीं कर सकते हैं, इसलिए हम इसके बजाय फिर से शुरू करने के लिए कम कर रहे हैं।
कार्डिनल

8
@ n-0101: "यथेष्ट रूप से बड़े" को DKW असमानता द्वारा बहुत अच्छी तरह से मात्रा निर्धारित किया जा सकता है (यदि आप चाहें, तो आप ओपी के प्रश्न में लिंक पर मेरे उत्तर को देख सकते हैं) और बहुत सारे के बारे में , यह ब्याज की नमूना आँकड़ा पर निर्भर करता है, लेकिन अगर हमारे पास बूटस्ट्रैप नमूने, तो सरल मोंटे कार्लो के साथ हम जानते हैं कि मानक त्रुटि आदेश की है मोटे तौर पर हे ( बी - 1 / 2 )BO(B1/2)
कार्डिनल

4
@कार्डिनल: अच्छी टिप्पणी। बहुत से लोगों को लगता है कि बूटस्ट्रैप और रेज़म्पलिंग एक ही बात है जब वास्तव में बाद वाला उपकरण पूर्व के लिए उपयोग किया जाता है। इसी तरह की गलत धारणा यह है कि सांख्यिकी के कई उपयोगकर्ता MCMC और बेयसियन विश्लेषण को भ्रमित करते हैं।
MånsT

122

+1 करने के लिए @ConjugatePrior, मैं सिर्फ एक बिंदु लाना चाहता हूं जो उनके उत्तर में निहित है। सवाल पूछता है, "अगर हम अपने नमूने से फिर से नमूना कर रहे हैं, तो यह कैसे है कि हम नमूने के बारे में नहीं बल्कि आबादी के बारे में कुछ सीख रहे हैं?" जनसंख्या वितरण का अनुमान प्रदान करने के लिए रेज़मैपलिंग नहीं किया जाता है - हम अपने नमूने को जनसंख्या के मॉडल के रूप में लेते हैं। बल्कि, प्रश्न में नमूना सांख्यिकीय के नमूना वितरण का अनुमान प्रदान करने के लिए पुन: नमूनाकरण किया जाता है ।


10
(+1) यह उस बिंदु के करीब है जिसे मैं कंजुगेटियर के उत्तर में टिप्पणी करने की कोशिश कर रहा था, हालांकि आपने इसे अधिक स्पष्ट और स्पष्ट रूप से कहा है। कुछ विशेष मामलों में, हम नमूने से प्राप्त अनुभवजन्य वितरण के तहत परीक्षण सांख्यिकीय के नमूने वितरण की गणना कर सकते हैं । लेकिन, आमतौर पर, हम नहीं कर सकते हैं और इसलिए हम सिमुलेशन में मजबूर हैं। :)
कार्डिनल

7
मैं देखता हूं, इसलिए अगर मैं आपको समझता हूं, तो यह तकनीक मानती है कि नमूना आबादी का एक पर्याप्त मॉडल है, और इसलिए उस नमूने को बड़े पैमाने पर फिर से जमा करने से आबादी के बारे में कुछ पता चलेगा, लेकिन केवल इस हद तक कि मूल नमूना एक अच्छा है। अब जब मैंने इसे इस तरह रखा तो यह लगभग स्पष्ट लग रहा है ...
एलन एच।

4
@AlanH।, मैं सिर्फ "परिवर्तन करना चाहता हूं" ... जनसंख्या के बारे में कुछ प्रकट करेगा "करने के लिए" ... नमूना वितरण के बारे में कुछ प्रकट करेगा "(मुद्दे पर सांख्यिकीय का उदाहरण, उदाहरण के लिए)। लेकिन, हाँ, आप इसे वहाँ है
गुंग

आप बिल्कुल सही हैं। व्यक्तिगत रूप से, और विशुद्ध रूप से शैक्षणिक कारणों से, मैं इस बिंदु को अपने 'लंबे संस्करण' के लिए सहेजता हूं, क्योंकि मेरे विशेष दर्शकों में यह बिंदु उनके युवा और अभी भी अस्थिर अंतर्ज्ञान को थोड़ा ठोक देता है, अगर बहुत जल्द ही इसे लागू कर दिया जाए।
संयुक्ताक्षरी

3
@ इरोसम, बूटस्ट्रैपिंग किसी वस्तु का नमूना वितरण निर्धारित करना है। आप इसे एक नमूना आँकड़ा (जैसे 56 वाँ प्रतिशत) या एक परीक्षण आँकड़ा (टी), आदि के लिए कर सकते हैं। मेरे द्विपद पूर्व में, नमूना वितरण स्पष्ट रूप से 0 सिर - 25% होगा; 1 सिर - 50%; 2 सिर - 25%; यह w / o resampling स्पष्ट है। कार्डिनल ने एक टिप्पणी कहीं है जो यह बताती है (साइट पर सबसे अच्छे उत्तरों में से कई कार्डिनल की टिप्पणियाँ हैं), लेकिन यह एक टिप्पणी है b / c को खोजना मुश्किल है।
गंग

43

यह संभवत: कुछ आँकड़ों और गणित (कलन, कम से कम) को समझने वाले लोगों के लिए एक अधिक तकनीकी व्याख्या है। यहाँ पर कुछ समय पहले दिए गए सर्वेक्षण बूटस्ट्रैप पर एक स्लाइड है:

बूटस्ट्रैप सिद्धांत

TE[X]=xdFFn()dFF()TθFn()Tθ^nθθ^nθ

यदि हम अपनी नमूना प्रक्रिया दोहरा सकते हैं, तो हम उस वितरण को प्राप्त कर सकते हैं और अधिक जान सकते हैं। खैर, यह आमतौर पर हमारी क्षमताओं से परे है। हालांकि, यदि

  1. FnF
  2. TF()θ

Fn()F()nnn5θ^nθ^nθ^nθ

θ^n to θ^n is like θ^n to θ

θ^nθ^n

TFnFθ^nθ^nθ^nθF

nnθ^nθθ^n(r)θ^nθ^n


7
यह उत्तर पूरी तरह से झूठ बोलने वाले दर्शकों के लिए सुलभ होने की कोशिश करने की बात को याद करता है।
त्रिपिटियो

20

मैं इस सवाल का जवाब दे रहा हूं क्योंकि मैं मानता हूं कि यह करना मुश्किल है और कई गलत धारणाएं हैं। एफ्रॉन और डियाकोनिस ने अपने 1983 के वैज्ञानिक अमेरिकी लेख में और मेरे विचार से ऐसा करने का प्रयास किया। अब कई किताबें हैं जो बूटस्ट्रैप के लिए समर्पित हैं जो एक अच्छा काम करती हैं। एफ्रॉन और टिबशिरानी 1986 में सांख्यिकीय विज्ञान के अपने लेख में एक महान काम करते हैं। मैंने अपने बूटस्ट्रैप तरीकों की किताब में व्यवसायी के लिए बूटस्ट्रैप को सुलभ बनाने के लिए विशेष रूप से कठिन प्रयास किया और आर हॉल की किताबों के लिए आवेदन के साथ बूटस्ट्रैप के लिए मेरा परिचय महान लेकिन बहुत उन्नत और सैद्धांतिक है। । टिम हेस्टरबर्ग ने डेविड मूर की परिचयात्मक सांख्यिकी पुस्तकों में से एक के लिए एक महान पूरक अध्याय लिखा है। स्वर्गीय क्लिफोर्ड लॉर्डबॉर्ग की एक अच्छी किताब थी। चियारा और हेस्टरबर्ग हाल ही में एक मध्यवर्ती स्तर की गणितीय सांख्यिकी पुस्तक के साथ सामने आए हैं जो बूटस्ट्रैप और अन्य पुनरुत्पादन के तरीकों को कवर करता है। यहां तक ​​कि उन्नत किताबें जैसे लाहिड़ी या शाओ और तू की अच्छी वैचारिक व्याख्याएं हैं। मैनली अपनी पुस्तक के साथ अच्छी तरह से करता है जो क्रमपरिवर्तन और बूटस्ट्रैप को शामिल करता है अब बूटस्ट्रैप के बारे में हैरान होने का कोई कारण नहीं है। यह ध्यान रखना महत्वपूर्ण है कि बूटस्ट्रैप बूटस्ट्रैप सिद्धांत पर निर्भर करता है "प्रतिस्थापन के साथ नमूना मूल नमूने पर व्यवहार करता है जिस तरह से मूल नमूना आबादी पर व्यवहार करता है। ऐसे उदाहरण हैं जहां यह सिद्धांत विफल रहता है। यह जानना महत्वपूर्ण है कि बूटस्ट्रैप। हर सांख्यिकीय समस्या का जवाब नहीं है। s अच्छा वैचारिक स्पष्टीकरण दें। मैनली अपनी पुस्तक के साथ अच्छी तरह से करता है जो क्रमपरिवर्तन और बूटस्ट्रैप को शामिल करता है अब बूटस्ट्रैप के बारे में हैरान होने का कोई कारण नहीं है। यह ध्यान रखना महत्वपूर्ण है कि बूटस्ट्रैप बूटस्ट्रैप सिद्धांत पर निर्भर करता है "प्रतिस्थापन के साथ नमूना मूल नमूने पर व्यवहार करता है जिस तरह से मूल नमूना आबादी पर व्यवहार करता है। ऐसे उदाहरण हैं जहां यह सिद्धांत विफल रहता है। यह जानना महत्वपूर्ण है कि बूटस्ट्रैप। हर सांख्यिकीय समस्या का जवाब नहीं है। s अच्छा वैचारिक स्पष्टीकरण दें। मैनली अपनी पुस्तक के साथ अच्छी तरह से करता है जो क्रमपरिवर्तन और बूटस्ट्रैप को शामिल करता है अब बूटस्ट्रैप के बारे में हैरान होने का कोई कारण नहीं है। यह ध्यान रखना महत्वपूर्ण है कि बूटस्ट्रैप बूटस्ट्रैप सिद्धांत पर निर्भर करता है "प्रतिस्थापन के साथ नमूना मूल नमूने पर व्यवहार करता है जिस तरह से मूल नमूना आबादी पर व्यवहार करता है। ऐसे उदाहरण हैं जहां यह सिद्धांत विफल रहता है। यह जानना महत्वपूर्ण है कि बूटस्ट्रैप। हर सांख्यिकीय समस्या का जवाब नहीं है। प्रतिस्थापन के साथ नमूना मूल नमूने पर व्यवहार करता है जिस तरह से मूल नमूना आबादी पर व्यवहार करता है। ऐसे उदाहरण हैं जहां यह सिद्धांत विफल हो जाता है। यह जानना महत्वपूर्ण है कि बूटस्ट्रैप हर सांख्यिकीय समस्या का जवाब नहीं है। प्रतिस्थापन के साथ नमूना मूल नमूने पर व्यवहार करता है जिस तरह से मूल नमूना आबादी पर व्यवहार करता है। ऐसे उदाहरण हैं जहां यह सिद्धांत विफल हो जाता है। यह जानना महत्वपूर्ण है कि बूटस्ट्रैप हर सांख्यिकीय समस्या का जवाब नहीं है।

यहां उन सभी पुस्तकों के लिए अमेज़न लिंक दिए गए हैं, जिनका मैंने उल्लेख किया है और बहुत कुछ।

Resampling और आर के साथ गणितीय सांख्यिकी

बूटस्ट्रैप के तरीके और उनके अनुप्रयोग

बूटस्ट्रैप विधियाँ: चिकित्सकों और शोधकर्ताओं के लिए एक मार्गदर्शिका

आर के लिए आवेदन के साथ बूटस्ट्रैप विधियों का एक परिचय

डिपेंडेंट डेटा के लिए रीसम्पलिंग के तरीके

जीव विज्ञान में रैंडमाइजेशन, बूटस्ट्रैप और मोंटे कार्लो तरीके

बूटस्ट्रैप का एक परिचय

व्यवसाय सांख्यिकी कंपेनियन अध्याय 18 का अभ्यास: बूटस्ट्रैप विधियाँ और क्रमपरिवर्तन टेस्ट

Resampling द्वारा डेटा विश्लेषण: अवधारणाओं और अनुप्रयोग

जैकनेफ, बूटस्ट्रैप और अन्य रिसमलिंग प्लान

जैकनाइफ और बूटस्ट्रैप

क्रमपरिवर्तन, पैरामीट्रिक और बूटस्ट्रैप टेस्ट्स ऑफ हाइपोथेसिस

बूटस्ट्रैप और एजवेथ विस्तार


2
@Procrastinator। मैं ऐसा अधिक बार कर रहा हूं। कुछ मामलों में मैं अपने उत्तर को पोस्ट करने और बाद में इसे साफ करने के लिए वापस आने की जल्दी में हूं। मुझे शीर्षक द्वारा लिंक के पते को परिवर्तित करने की लटका नहीं मिली है और मुझे यकीन नहीं है कि यह सब आवश्यक है। यह एक तरह से एक क्लिक है, लेकिन अगर आप इस बात का इंतजार नहीं कर सकते कि मुझे आपका संपादन करने में कोई आपत्ति नहीं है। वास्तव में मैं इसकी सराहना करता हूं।
माइकल चेरिक जूल

1
मैं अपनी टिप्पणी "मैं आपको संपादन करने में कोई आपत्ति नहीं करता हूं" को "लेकिन अगर आप प्रतीक्षा नहीं कर सकते हैं" के साथ बदलने जा रहे थे। मैं देखता हूं कि आपने जो किया वह सहज और आसान है और शायद कम समय लगता है, लेकिन मैंने अभी इसे सीखा नहीं है और मैं इसे इतने बड़े सौदे के रूप में नहीं देखता हूं, जैसा कि कुछ मध्यस्थ और अन्य सदस्य करते हैं।
माइकल चेरिक

1
10,000

शुक्रिया अदा करने वाले। मैं आज उस कुल तक पहुँचने की आशंका कर रहा था।
माइकल चेरिक जूल

10

बूटस्ट्रैपिंग के माध्यम से आप डेटा के एक ही समूह (आपके नमूना डेटा) से बार-बार नमूने ले रहे हैं ताकि यह अनुमान लगाया जा सके कि पूरी आबादी के बारे में आपका अनुमान कितना सही है (वास्तविक दुनिया में वास्तव में क्या है)।

यदि आप एक नमूना ले रहे थे और वास्तविक आबादी पर अनुमान लगा रहे थे, तो आप अनुमान लगाने में सक्षम नहीं हो सकते हैं कि आपके अनुमान कितने सही हैं - हमारे पास केवल एक ही अनुमान है और यह पहचान नहीं की है कि यह अनुमान विभिन्न नमूनों के साथ कैसे भिन्न होता है, जिनका हमने सामना किया है।

बूटस्ट्रैपिंग के साथ, हम कई नमूने उत्पन्न करने के लिए इस मुख्य नमूने का उपयोग करते हैं। उदाहरण के लिए, यदि हमने हर दिन 1000 दिनों में लाभ मापा तो हम इस सेट से यादृच्छिक नमूने ले सकते हैं। हम एक यादृच्छिक दिन से लाभ प्राप्त कर सकते हैं, इसे रिकॉर्ड कर सकते हैं, दूसरे यादृच्छिक दिन से लाभ प्राप्त कर सकते हैं (जो पहले के समान दिन हो सकता है - प्रतिस्थापन के साथ नमूनाकरण), इसे रिकॉर्ड करें, और तब तक, जब तक हमें "नया" न मिल जाए 1000 दिनों का नमूना (मूल नमूने से)।

यह "नया" नमूना मूल नमूने के समान नहीं है - वास्तव में हम ऊपर के रूप में कई "नए" नमूने उत्पन्न कर सकते हैं। जब हम साधनों और अनुमानों में भिन्नताओं को देखते हैं, तो हम यह अनुमान लगाने में सक्षम होते हैं कि मूल अनुमान कितने सही थे।

संपादित करें - टिप्पणी के जवाब में

"नए" नमूने पहले वाले के समान नहीं हैं और इन पर आधारित नए अनुमान अलग-अलग होंगे। यह जनसंख्या के दोहराया नमूनों का अनुकरण करता है। बूटस्ट्रैप द्वारा उत्पन्न "नए" नमूनों के अनुमानों में भिन्नता इस बात पर प्रकाश डालेगी कि नमूना अनुमान जनसंख्या से अलग-अलग नमूनों को किस प्रकार अलग-अलग करेगा। यह वास्तव में है कि हम मूल अनुमानों की सटीकता को मापने की कोशिश कैसे कर सकते हैं।

बेशक, बूटस्ट्रैपिंग के बजाय आप आबादी से कई नए नमूने ले सकते हैं लेकिन यह संभव नहीं है।


5
धन्यवाद! यह मुझे समझ में आता है। मैं विशेष रूप से सोच रहा हूं कि यह कैसे होता है कि आबादी के नमूने से पुन: नमूना करने से अंतर्निहित आबादी को समझने में मदद मिलती है। यदि हम एक नमूने से पुन: नमूना कर रहे हैं, तो यह कैसे है कि हम केवल नमूने के बारे में नहीं बल्कि जनसंख्या के बारे में कुछ सीख रहे हैं? वहाँ एक छलांग लगती है जो कुछ हद तक प्रति-सहज होती है।
एलन एच।

4

मुझे लगता है कि यह एक स्वीकृत उत्तर के साथ एक पुराना सवाल है, लेकिन मैं बूटस्ट्रैप विधि के बारे में अपना दृष्टिकोण प्रदान करना चाहूंगा। मैं किसी भी तरह से एक विशेषज्ञ नहीं हूं (एक सांख्यिकी उपयोगकर्ता का अधिक, ओपी के रूप में) और किसी भी सुधार या टिप्पणियों का स्वागत करता हूं।

SiT(Si)

आप इसके बजाय आकार 98 के सभी सबसेट पर विचार कर सकते हैं और JK-2 (2 तत्व हटाए गए) या JK-3 आदि प्राप्त कर सकते हैं।

अब, बूटस्ट्रैप इसका एक यादृच्छिक संस्करण है। प्रतिस्थापन के साथ चयन के माध्यम से पुन: नमूनाकरण करके आप तत्वों की एक यादृच्छिक संख्या (संभवत: कोई नहीं) "हटा देंगे" और उन्हें एक (या अधिक) प्रतिकृति द्वारा "प्रतिस्थापित" करेंगे।

प्रतिकृति के साथ बदलकर पुन: डिज़ाइन किए गए डेटासेट हमेशा एक ही आकार के होते हैं। कटहल के लिए आप पूछ सकते हैं कि 100 के बजाय 99 के आकार के नमूनों पर कटहल का क्या असर होता है, लेकिन अगर नमूना आकार "पर्याप्त रूप से बड़ा" है, तो यह संभवतः गैर-मुद्दा है।

कटहल में आप कभी भी डिलीट -1 और डिलीट -2 आदि को नहीं मिलाते हैं, यह सुनिश्चित करने के लिए कि जैकेड अनुमान समान आकार के नमूनों से हैं।

आप आकार के नमूने को 100 में विभाजित करने पर भी विचार कर सकते हैं। 10 आकार के 10 नमूने। यह कुछ सैद्धांतिक पहलुओं में स्वच्छ (स्वतंत्र उपसमुच्चय) होगा, लेकिन नमूना आकार को कम कर देता है (100 से 10 तक) इतना अव्यावहारिक (अधिकांश में) मामले)।

आप निश्चित आकार के आंशिक रूप से ओवरलैपिंग सबसेट पर भी विचार कर सकते हैं। यह सब बूटस्ट्रैप विधि द्वारा स्वचालित और समान और यादृच्छिक तरीके से नियंत्रित किया जाता है।

इसके अलावा, बूटस्ट्रैप विधि आपको मूल नमूने के अनुभवजन्य वितरण से आपके आंकड़े के नमूना वितरण का अनुमान देती है, ताकि आप मानक त्रुटि के अलावा सांख्यिकीय के आगे के गुणों का विश्लेषण कर सकें।


1

फॉक्स को Paraphrasing , मैं यह कहकर शुरू करूंगा कि आपके देखे गए नमूने से बार-बार रेज़मैम्पलिंग की प्रक्रिया को पूरी आबादी से मूल नमूने की प्रक्रिया की नकल करने के लिए दिखाया गया है।


उपरोक्त लिंक असाध्य है इसलिए मुझे नहीं पता कि फॉक्स ने क्या कहा। लेकिन पते में से कोई भी मेरी चिंता का विषय है कि बूटस्ट्रैपिंग त्रुटि पैदा करता है। मान लीजिए कि आप पृथ्वी पर भाषाओं की सापेक्ष आवृत्ति के बारे में जानना चाहते हैं। यदि आपने अपना नमूना इंटरनेट से लिया और बस उस नमूने को फिर से भेज दिया, तो आप सभी भाषाओं को नेट पर नहीं छोड़ेंगे।
एक्वागर्मलिन

1

जनसंख्या का एक महीन नमूना वितरण का अनुमान लगाता है कि जिस तरह एक हिस्टोग्राम इसे अनुमानित करता है। फिर से नमूना लेने से, प्रत्येक बिन गिनती बदल जाती है और आपको एक नया अनुमान मिलता है। बड़े गणना मूल्य कम होते हैं जो कि छोटे गणना मूल्य मूल जनसंख्या और नमूना सेट दोनों में होते हैं । चूँकि आप इसे एक लेपर्सन को समझा रहे हैं, आप तर्क दे सकते हैं कि बड़े बिन काउंट के लिए यह दोनों मामलों में लगभग बिन गिनती का वर्गमूल है ।

2080100(0.2×0.8)×1001:4

मुझे लगता है कि यह तनावपूर्ण है कि बूटस्ट्रैप "नए" डेटा को उजागर नहीं करता है, यह नमूना के उतार-चढ़ाव को लगभग निर्धारित करने के लिए एक सुविधाजनक, गैर पैरामीट्रिक तरीका है अगर सही संभावना नमूना द्वारा दी गई है।


मैंने आपके उत्तर में थोड़े से स्वरूपण परिवर्तन किए हैं - यदि आप उन्हें अनुपयुक्त पाते हैं तो उन्हें वापस करने के लिए स्वतंत्र महसूस करें। कुछ और स्पष्टीकरण की आवश्यकता हो सकती है कि वर्गमूल क्यों है?
टिम

1

ध्यान दें कि क्लासिक हीन सांख्यिकी में जनसंख्या के एक अच्छे अनुमानक के रूप में आबादी के लिए एक नमूना को जोड़ने वाली सैद्धांतिक इकाई नमूना वितरण (सभी संभावित नमूने जो आबादी से खींची जा सकती है) है। बूटस्ट्रैप विधि एक प्रकार का नमूना वितरण (कई नमूनों पर आधारित वितरण) बना रही है। ज़रूर, यह एक अधिकतम संभावना विधि है, लेकिन मूल तर्क क्लासिक सामान्य वितरण-आधारित आँकड़ों के पीछे पारंपरिक संभाव्यता सिद्धांत से अलग नहीं है।


0

मेरी बात बहुत छोटी है।

बूटस्ट्रैप काम करता है क्योंकि यह हमारे शोध एजेंडा के मुख्य आधार का कम्प्यूटेशनल रूप से गहनता से शोषण करता है।

अधिक विशिष्ट होने के लिए, सांख्यिकी या जीव विज्ञान, या अधिकांश गैर-सैद्धांतिक विज्ञान में, हम व्यक्तियों का अध्ययन करते हैं, इस प्रकार नमूने एकत्र करते हैं।

फिर भी, ऐसे नमूनों से, हम भविष्य में या अलग-अलग नमूनों में हमें प्रस्तुत करते हुए, अन्य व्यक्तियों पर निष्कर्ष निकालना चाहते हैं।

बूटस्ट्रैप के साथ, हमारे नमूने के व्यक्तिगत घटकों पर हमारे मॉडलिंग को स्पष्ट रूप से पाया जाने से, हम अन्य व्यक्तियों के लिए बेहतर (कम मान्यताओं के साथ, आमतौर पर) अनुमान लगाते हैं और भविष्यवाणी करते हैं।


1
यह बूटस्ट्रैप को किसी अन्य सांख्यिकीय प्रक्रिया से अलग नहीं करता है जो कच्चे डेटा से शुरू होता है। यह केवल उन प्रक्रियाओं से अंतर करने के लिए लगता है जो सारांश आँकड़ों या द्विपदी आवृत्तियों पर आधारित हैं।
whuber

0

जब शुरुआती लोगों को समझाता हूं तो मुझे लगता है कि यह एक विशिष्ट उदाहरण लेने में मदद करता है ...

कल्पना कीजिए कि आपको कुछ जनसंख्या से 9 मापों का एक यादृच्छिक नमूना मिला है। नमूने का मतलब 60 है। क्या हम सुनिश्चित कर सकते हैं कि पूरी आबादी का औसत भी 60 है? जाहिर है कि नहीं क्योंकि छोटे नमूने अलग-अलग होंगे, इसलिए 60 का अनुमान गलत होने की संभावना है। यह पता लगाने के लिए कि इस तरह के कितने नमूने अलग-अलग होंगे, हम बूटस्ट्रैपिंग नामक एक विधि का उपयोग करके - कुछ प्रयोग चला सकते हैं।

नमूने में पहली संख्या 74 है और दूसरी 65 है, तो आइए एक बड़ी "ढोंग" आबादी की कल्पना करें जिसमें एक नौवें 74, एक नौवें 65, और इतने पर शामिल हैं। इस आबादी से एक यादृच्छिक नमूना लेने का सबसे आसान तरीका है कि आप नौ के नमूने से यादृच्छिक पर एक संख्या ले लें, फिर इसे बदल दें ताकि आपके पास फिर से नौ का मूल नमूना हो और यादृच्छिक पर एक और का चयन करें, और इसी तरह जब तक आपके पास न हो 9. "पुनरावर्तन" 9. जब मैंने ऐसा किया, तो 74 बिल्कुल नहीं दिखाई दिए, लेकिन कुछ अन्य संख्याएं दो बार दिखाई दीं, और इसका मतलब 54.4 था। (यह http://woodm.myweb.port.ac.uk/SL/resample.xlsx पर स्प्रैडशीट पर सेट किया गया है - स्क्रीन के नीचे बूटस्ट्रैप टैब पर क्लिक करें।)

जब मैंने इस तरह से 1000 के अवशेष लिए, तो उनके साधनों की संख्या 44 से 80 तक, 48 और 72 के बीच 95% थी। जो यह बताता है कि 16-20 इकाइयों तक की त्रुटि है (44, ढोंग आबादी के 60 से नीचे मतलब 16 है) जनसंख्या के औसत का अनुमान लगाने के लिए आकार 9 के नमूनों का उपयोग करके) 80 से ऊपर 20 इकाइयाँ हैं। और हम 95% आश्वस्त हो सकते हैं कि त्रुटि 12 या उससे कम होगी। इसलिए हम 95% आश्वस्त हो सकते हैं कि जनसंख्या का मतलब 48 और 72 के बीच कहीं होगा।

यहाँ पर कई मान्यताओं को चमकाया गया है, स्पष्ट रूप से यह धारणा है कि नमूना आबादी की एक उपयोगी तस्वीर देता है - अनुभव यह दिखाता है कि आम तौर पर अच्छी तरह से काम करता है बशर्ते नमूना बड़ा हो (9 छोटा सा है, लेकिन इसे आसान बनाता है) देखो क्या हो रहा है)। Http://woodm.myweb.port.ac.uk/SL/resample.xlsx पर स्प्रेडशीट आपको व्यक्तिगत रेज़मैनों को देखने में सक्षम बनाता है, 1000 रेज़मैनों के प्लॉट हिस्टोग्राम, बड़े नमूनों के साथ प्रयोग, आदि लेख में अधिक विस्तृत विवरण है। पर https://arxiv.org/abs/1803.06214


यह प्राथमिक और शायद सहज है, लेकिन मुझे नहीं लगता कि यह बूटस्ट्रैप के कारण काम करता है।
माइकल चेरिक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.