बूटस्ट्रैप नमूनों की संख्या के लिए अंगूठे का नियम


40

मुझे आश्चर्य है कि अगर किसी को बूटस्ट्रैप नमूनों की संख्या के बारे में किसी भी सामान्य नियम को जानना चाहिए जो डेटा की विशेषताओं (टिप्पणियों, आदि) और / या चर शामिल की विशेषताओं के आधार पर उपयोग करना चाहिए?


2
मैं इसके बारे में बहुत उत्सुक था, जैसा कि मैं एक सिमुलेशन विश्लेषण की योजना बना रहा हूं। क्या कोई ऐसा कारण नहीं है कि जितने नमूने व्यावहारिक / व्यावहारिक हों, उतने नमूने न हों? पर्यावरणीय चिंताओं (जैसे, बिजली के खर्च) और व्यक्तिगत चिंताओं (जैसे, स्थायी नीरवता के लिए महत्वपूर्ण सीमा से अधिक, शुद्ध geekdom में संक्रमण ) से अलग, मैं अब तक के जवाब में कोई मतभेद नहीं देख रहा हूं (+ 1s BTW के चारों ओर)। ।
निक स्टॉनर

4
@ अगर मैं काफी हद तक सहमत हूं - मैं आमतौर पर उतने ही का उपयोग करता हूं जितना कि मैं इंतजार कर सकता हूं (आमतौर पर एक मिलियन में टॉपिंग करता हूं, हालांकि हमेशा नहीं), लेकिन आमतौर पर 1000 को एक बहुत स्पष्ट निचली सीमा के रूप में माना जाता है। पहली कोशिश के रूप में मैं अक्सर समय की जानकारी प्राप्त करने के लिए 1K करता हूं, और फिर बाहर काम करता हूं कि मैं वास्तविक उत्तर की प्रतीक्षा करने के लिए कितने गुणकों में तैयार हूं।
Glen_b

1
यदि प्रक्रिया का समय लेने वाला हिस्सा सिमुलेशन उत्पन्न कर रहा है, और उनसे टिप्पणियों को आसानी से एकत्र किया जा सकता है (जैसा कि वे अक्सर थोड़ा अतिरिक्त कोडिंग के साथ कर सकते हैं), ऐसा लगता है जैसे अतिप्रचार के पक्ष में नहीं होने के लिए बहुत कम बहाना है। मुझे लगता है कि यह समय के साथ हाथ से बाहर निकल सकता है अगर लोग यह सब करते हैं और भूल गए हैं, लेकिन क्योंकि यह शायद कभी नहीं होने वाला है ... एक न्यूनतम सीमा होने पर जो लोग अनावश्यक रूप से लक्ष्य बनाते हैं, यदि वैकल्पिक है बस और अधिक के लिए जा रहा है जब तक कि वास्तव में संदेह के लिए कोई जगह नहीं बची है - इस तरह अंतर्निहित रूप से हतोत्साहित किया जाता है।
Nick Stauner

मैं बस बूटस्ट्रैप करता हूं जब तक कि मुझे एक स्पष्ट अभिसरण दिखाई नहीं देता। यदि आप समीक्षकों की चिंताओं को कम करना चाहते हैं, तो मैं सिर्फ बूटस्ट्रैप पुनरावृत्तियों बनाम विज़ुअलाइज़ेशन को शामिल करूंगा, जिसके परिणामस्वरूप अभिसरण को दर्शाने के लिए अनुमान लगाया जाएगा।
आरटीबार्क

उत्तर एट अल। 2002 कुछ दिशा-निर्देश प्रदान करता है जो मैंने उपयोगी पाया है DOI: 10.1086 / 341527 [ncbi.nlm.nih.gov/pmc/articles/PMC379178/pdf/AJHGv71p439.pdf ]
माइकल

जवाबों:


33

मेरा अनुभव यह है कि सांख्यिकीविद् सिमुलेशन या बूटस्ट्रैप को गंभीरता से नहीं लेंगे, जब तक कि पुनरावृत्तियों की संख्या 1,000 से अधिक न हो। MC एरर एक बड़ा मुद्दा है जिसे थोड़ा सराहा गया है। उदाहरण के लिए, इस पत्र का इस्तेमाल किया Niter=50एक फीचर चयन उपकरण के रूप में LASSO प्रदर्शित करने के लिए। मेरी थीसिस को चलाने के लिए बहुत कम समय लगेगा 50 पुनरावृत्तियों को स्वीकार्य माना गया था! मेरा सुझाव है कि आपको हमेशा बूटस्ट्रैप नमूनों के हिस्टोग्राम का निरीक्षण करना चाहिए । उनका वितरण काफी नियमित दिखाई देना चाहिए। मुझे नहीं लगता कि कोई भी सादा संख्यात्मक नियम पर्याप्त होगा, और यह एमसी त्रुटि का आकलन करने के लिए एक डबल-बूटस्ट्रैप प्रदर्शन करने, कहने के लिए ओवरकिल होगा।

मान लीजिए कि आप दो स्वतंत्र मानक सामान्य यादृच्छिक चर के अनुपात से माध्य का अनुमान लगा रहे थे, कुछ सांख्यिकीविद् इसे बूटस्ट्रैपिंग की सिफारिश कर सकते हैं क्योंकि अभिन्न गणना करना मुश्किल है। यदि आपके पास अपने बेल्ट के तहत मूल संभाव्यता सिद्धांत है, तो आप पहचानेंगे कि यह अनुपात एक गैर-मौजूद माध्य के साथ एक कॉची यादृच्छिक चर बनाता है। किसी अन्य लेप्टोकोर्टिक वितरण के लिए अधिक नियमित गॉसियन घनत्व समकक्ष की तुलना में कई अतिरिक्त बूटस्ट्रैप पुनरावृत्तियों की आवश्यकता होगी। उस स्थिति में, 1000, 100000, या 10000000 बूटस्ट्रैप के नमूने यह अनुमान लगाने के लिए अपर्याप्त होंगे कि जो मौजूद नहीं है। इन बूटस्ट्रैप्स का हिस्टोग्राम अनियमित और गलत दिखता रहेगा।

उस कहानी में कुछ और झुर्रियाँ हैं। विशेष रूप से, बूटस्ट्रैप केवल वास्तव में उचित है जब डेटा उत्पन्न करने वाले प्रायिकता मॉडल के क्षण मौजूद हों। ऐसा इसलिए है क्योंकि आप अनुभवजन्य वितरण समारोह को वास्तविक संभाव्यता मॉडल के लिए एक पुआल आदमी के रूप में उपयोग कर रहे हैं, और यह मानते हुए कि उनके पास एक ही मतलब है, मानक विचलन, तिरछापन, 99 वाँ प्रतिशत, आदि।

संक्षेप में, एक आँकड़ा का बूटस्ट्रैप अनुमान और इसकी मानक त्रुटि तब ही उचित है जब बूटस्ट्रैप किए गए नमूनों का हिस्टोग्राम उचित संदेह से परे नियमित रूप से प्रकट होता है और जब बूटस्ट्रैप उचित होता है।


3
मैंने हमेशा बड़े बूटस्ट्रैप नमूने देखे हैं। हालांकि, एफ्रॉन और टिबशिरानी द्वारा "एन इंट्रोडक्शन टू द बूटस्ट्रैप" (1994), वे रिपोर्ट करते हैं कि आप बी = 25 के साथ एक सभ्य अनुमान प्राप्त कर सकते हैं, और बी = 200 आप अनंतता के रूप में भिन्नता के समान गुणांक के साथ संपर्क करते हैं। वे विभिन्न बी के लिए भिन्नता के गुणांक की एक तालिका प्रदान करते हैं (पृष्ठ 52-53, दोनों पृष्ठ Google पुस्तकों पर उपलब्ध हैं)।
जेरेमी टाउनले

19

संपादित करें:

यदि आप पर्याप्त नमूने लेने के बारे में गंभीर हैं, तो आपको क्या करना चाहिए, अपनी बूटस्ट्रैप प्रक्रिया को चलाने के लिए, आपको क्या उम्मीद है, पर्याप्त नमूने कई बार हैं और देखें कि बूटस्ट्रैप का अनुमान "कूदने" में कितना है। यदि दोहराए गए अनुमानों में बहुत अंतर नहीं है (जहां "बहुत कुछ" आपकी विशिष्ट स्थिति पर निर्भर करता है) तो आपके सबसे अधिक ठीक होने की संभावना है। बेशक आप अनुमान लगा सकते हैं कि नमूना एसडी या इसी तरह की गणना करके दोहराए गए अनुमान कितना चारों ओर घूमते हैं।

यदि आप एक संदर्भ चाहते हैं और अंगूठे विल्कोक्स (2010) का एक नियम लिखते हैं, "599 सामान्य उपयोग के लिए अनुशंसित है।" लेकिन इसे केवल एक दिशानिर्देश माना जाना चाहिए या शायद आपके द्वारा विचार किए जाने वाले नमूनों की न्यूनतम संख्या। यदि आप सुरक्षित पक्ष पर रहना चाहते हैं तो कोई कारण नहीं है (यदि यह कम्प्यूटेशनल रूप से संभव है) तो आपको अधिक नमूनों के परिमाण का क्रम क्यों नहीं उत्पन्न करना चाहिए।

एक व्यक्तिगत नोट पर जब मैं "खुद के लिए" अनुमान लगाता हूं तो 10,000 नमूने चलाने पड़ते हैं और जब कुछ पर दूसरों को पारित होने का अनुमान होता है (लेकिन यह छोटा डेटासेट के साथ काम करता है)।

संदर्भ

विलकॉक्स, आरआर (2010)। आधुनिक सांख्यिकीय विधियों के मूल तत्व: शक्ति और सटीकता में पर्याप्त सुधार। स्प्रिंगर।


17
599? पाँच सौ निन्यानबे? इस संख्या के पक्ष में पृथ्वी पर क्या तर्क हो सकता है?
अमीबा का कहना है कि मोनिका

विलकॉक्स (2010) से पूछें, मुझे लगता है ... मैं बहुत उत्सुक हूं; हो सकता है कि रासमस हमें बोली के इर्दगिर्द थोड़ा और संदर्भ दे?
निक स्टॉनर

मेरे लिए अस्पष्ट जहाँ से 599 भी आते हैं ... जवाब में कुछ बेहतर सलाह दी, हालांकि ...
रासमुस बस्त

8
@amoeba आप अपने लिए "मार्ग" पढ़ सकते हैं । यह आँकड़ों में असाधारण अस्पष्ट लेखन का एक उदाहरण है, और विशेष रूप से केवल विंडसैबर्ड मानक त्रुटि अनुमानों के साथ छंटनी के अर्थ पर लागू होता है ।
एडमो

11

कुछ स्थितियाँ ऐसी हैं जहाँ आप पहले से या कुछ पुनरावृत्तियों के बाद बता सकते हैं कि बड़ी संख्या में बूटस्ट्रैप पुनरावृत्तियों अंत में मदद नहीं करेंगे।

  • आपको उम्मीद है कि सटीक परिमाण के क्रम पर पहले से ही एक विचार है जो परिणामों की सार्थक व्याख्या के लिए आवश्यक है। यदि आप नहीं करते हैं, तो डेटा विश्लेषण के पीछे की समस्या के बारे में थोड़ा और जानने का समय है। वैसे भी, कुछ पुनरावृत्तियों के बाद आप अनुमान लगा सकते हैं कि कितने और पुनरावृत्तियों की आवश्यकता है।

  • जाहिर है, अगर आपके पास बहुत कम मामले हैं (कहते हैं, नैतिकता समिति ने 5 चूहों की अनुमति दी है) तो आपको हजारों पुनरावृत्तियों के बारे में सोचने की आवश्यकता नहीं है। शायद सभी संभावित ड्रॉ को देखना बेहतर होगा। और शायद यह रोकना बेहतर होगा और सोचें कि 5 चूहों के आधार पर किसी भी तरह का निष्कर्ष कैसे हो सकता है (नहीं)।

  • परिणामों की कुल अनिश्चितता के बारे में सोचें। मेरे क्षेत्र में, अनिश्चितता के जिस हिस्से को आप बूटस्ट्रैपिंग द्वारा माप और कम कर सकते हैं, वह केवल कुल अनिश्चितता का एक मामूली हिस्सा हो सकता है (उदाहरण के लिए प्रयोगों के डिजाइन में प्रतिबंध के कारण भिन्नता के महत्वपूर्ण स्रोत अक्सर प्रयोग द्वारा कवर नहीं किए जाते हैं - कहते हैं , हम सेल लाइनों पर प्रयोगों द्वारा शुरू करते हैं, हालांकि अंतिम लक्ष्य रोगी होंगे)। इस स्थिति में यह बहुत अधिक पुनरावृत्तियों को चलाने के लिए समझ में नहीं आता है - यह वैसे भी अंतिम परिणाम में मदद नहीं करेगा और इसके अलावा यह निश्चितता की एक गलत भावना का परिचय दे सकता है।

  • एक संबंधित (हालांकि बिल्कुल समान नहीं) समस्या मॉडल के बूट-आउट या क्रॉस सत्यापन के दौरान होती है: आपके पास अनिश्चितता के दो स्रोत हैं: परिमित (और मेरे मामले में आमतौर पर बहुत कम संख्या में स्वतंत्र मामले) और (में) बूटस्ट्रैप्ड मॉडल की स्थिरता। रेज़मैपलिंग सत्यापन के आपके सेट के आधार पर, आपके पास उनमें से केवल एक ही हो सकता है जो रेज़मैपलिंग अनुमान में योगदान दे रहा है। उस स्थिति में, आप विचरण के अन्य स्रोत के एक अनुमान का उपयोग करके यह अनुमान लगा सकते हैं कि आपको पुनरावर्तन के साथ क्या निश्चितता प्राप्त करनी चाहिए, और जब अंतिम परिणाम में मदद करना बंद हो जाता है।

  • अंत में, जबकि अभी तक मेरे विचार कम पुनरावृत्तियों को करने के बारे में थे , यहाँ अधिक करने के पक्ष में एक व्यावहारिक विचार है :
    व्यवहार में बूटस्ट्रैप के चलने के बाद मेरा काम नहीं होता है। बूटस्ट्रैप के आउटपुट को सारांश आंकड़ों और / या आंकड़ों में एकत्र किया जाना चाहिए। परिणाम की व्याख्या करने के लिए कागज या रिपोर्ट लिखे जाने की आवश्यकता है। इनमें से अधिकांश पहले से ही बूटस्ट्रैप के कुछ पुनरावृत्तियों के प्रारंभिक परिणामों के साथ किया जा सकता है (यदि परिणाम स्पष्ट हैं, तो वे कुछ पुनरावृत्तियों के बाद पहले से ही दिखाते हैं, यदि वे सीमा रेखा हैं तो वे सीमा रेखा पर रहेंगे)। इसलिए मैं अक्सर बूटस्ट्रैपिंग को इस तरह से सेट करता हूं जिससे मुझे प्रारंभिक परिणाम खींचने की अनुमति मिलती है ताकि मैं कंप्यूटर पर काम करते समय काम कर सकूं। अगर बूटस्ट्रैपिंग में कुछ और दिन लगते हैं तो इस तरह से यह मुझे ज्यादा परेशान नहीं करता है।


10

TLDR। 10,000 को अंगूठे का एक अच्छा नियम लगता है, उदाहरण के लिए बूटस्ट्रैप के इस बड़े या बड़े से पी-मान लगभग 95% समय के लिए विधि के "सच्चे पी-मूल्य" के 0.01 के भीतर होंगे।

मैं केवल प्रतिशतक बूटस्ट्रैप दृष्टिकोण पर विचार करता हूं, जो कि आमतौर पर उपयोग की जाने वाली विधि (मेरी जानकारी के लिए) है, लेकिन यह भी माना जाता है कि इसमें कमजोरियां हैं और इसका उपयोग छोटे नमूनों के साथ नहीं किया जाना चाहिए

थोड़ा सा रिफ्रेश हो रहा है। यह बूटस्ट्रैप के परिणामों से जुड़ी अनिश्चितता की गणना करने के लिए उपयोगी हो सकता है ताकि बूटस्ट्रैप के उपयोग से उत्पन्न अनिश्चितता के लिए एक समझ मिल सके। ध्यान दें कि यह बूटस्ट्रैप में संभावित कमजोरियों को संबोधित नहीं करता है (जैसे ऊपर लिंक देखें), लेकिन यह मूल्यांकन में मदद करता है कि क्या किसी विशेष एप्लिकेशन में "पर्याप्त" बूटस्ट्रैप नमूने हैं। आम तौर पर, से संबंधित त्रुटि बूटस्ट्रैप नमूने का आकार n शून्य करने के लिए चला जाता है के रूप में nअनंत को जाता है, और सवाल पूछता है, कितना बड़ा होना चाहिए nछोटे होने छोटे बूटस्ट्रैप नमूना आकार के साथ जुड़े त्रुटि के लिए हो सकता है?

P- मान में बूटस्ट्रैप अनिश्चितता। अनुमानित पी-मान में गड़बड़ी, कहते हैं कि pv_est बूटस्ट्रैप से अनुमानित पी-मूल्य है, के बारे में है 2 x sqrt(pv_est * (1 - pv_est) / N), जहां Nबूटस्ट्रैप नमूनों की संख्या है। यह मान्य है pv_est * Nऔर यदि (1 - pv_est) * Nदोनों हैं >= 10। यदि इनमें से एक 10 से छोटा है, तो यह कम सटीक है लेकिन बहुत ही मोटे तौर पर उसी पड़ोस में है जैसा कि अनुमान है।

एक विश्वास अंतराल में बूटस्ट्रैप त्रुटि। यदि 95% विश्वास अंतराल का उपयोग कर रहे हैं, तो 2.5% के पास बूटस्ट्रैप वितरण की मात्राओं की परिवर्तनशीलता और 97.5% (2.5 वें प्रतिशत के लिए) पर जाँच करके देखें 2.5 +/- 2 * 100 * sqrt(0.025 * 0.975 / n)। यह सूत्र लिया गया बूटस्ट्रैप नमूनों की संख्या के आधार पर 95% विश्वास अंतराल के निचले छोर की अनिश्चितता को बताता है। एक समान अन्वेषण शीर्ष छोर पर किया जाना चाहिए। यदि यह अनुमान कुछ अस्थिर है, तो अधिक बूटस्ट्रैप नमूने लेना सुनिश्चित करें!


किसी भी और किसी भी गुणक मूल्य (2 गुना, 10 गुना?) को चुनें, मैं आपको एक संभावना मॉडल दे सकता हूं जिसके लिए अधिकतम संभावना है कि मूल्य बूटस्ट्रैप के सापेक्ष दक्षता के रूप में है। n
एडम

7

मैं एक और उत्तर में उठाए गए कुछ के जवाब से शुरू करता हूं: " " (बूटस्ट्रैप नमूनों की संख्या) के रूप में इतनी अजीब संख्या क्यों ? 599

यह मोंटे कार्लो परीक्षणों पर भी लागू होता है (जिसमें बूटस्ट्रैपिंग समतुल्य है जब अंतर्निहित आंकड़ा निर्णायक है ), और निम्नलिखित में से आता है: यदि परीक्षण सटीक होना है , तो, अगर वांछित महत्व स्तर है, और है नमूनों की संख्या, निम्नलिखित संबंध धारण करना चाहिए:बीαB

α(1+B)=integer

अब विशिष्ट महत्व के स्तर पर विचार करें औरα 2 = 0.05α1=0.1α2=0.05

हमारे पास है

B1=integer0.11,B2=integer0.051

यह "माइनस वन" एक सटीक परीक्षण सुनिश्चित करने के लिए " " जैसी प्रस्तावित संख्या की ओर जाता है ।599

मैंने डेविडसन, आर।, और मैककिनोन, जेजी (2000) से निम्नलिखित जानकारी ली बूटस्ट्रैप परीक्षण: कितने बूटस्ट्रैप ?. अर्थमितीय समीक्षा, 19 (1), 55-68। (वर्किंग पेपर संस्करण स्वतंत्र रूप से डाउनलोड करने योग्य है)।

जैसा कि अंगूठे के नियम के अनुसार, लेखक बूटस्ट्रैपिंग पी-वैल्यू के मामले की जांच करते हैं और वे सुझाव देते हैं कि पर परीक्षणों के लिए नमूनों की न्यूनतम संख्या लगभग 400 (इसलिए ) है जबकि स्तर पर परीक्षण के लिए यह 1500 है (इसलिए ) है।399 0.01 14990.053990.011499

वे एंडोजेनिक रूप से निर्धारित करने के लिए एक पूर्व-परीक्षण प्रक्रिया का भी प्रस्ताव करते हैं । अपनी प्रक्रिया का अनुकरण करने के बाद वे निष्कर्ष निकालते हैं:B

"यह समझना आसान है कि प्रिटिंग प्रक्रिया क्यों अच्छी तरह से काम करती है। जब शून्य परिकल्पना सच होती है, तो बी सुरक्षित रूप से छोटा हो सकता है, क्योंकि हम शक्ति के बारे में बिल्कुल चिंतित नहीं हैं। इसी तरह, जब शून्य गलत है और परीक्षण शक्ति बहुत अधिक है, तो बी को बड़ा होने की आवश्यकता नहीं है, क्योंकि बिजली की हानि एक गंभीर मुद्दा नहीं है। हालांकि, जब शून्य झूठा होता है और परीक्षण शक्ति मध्यम रूप से अधिक होती है, तो बिजली की हानि से बचने के लिए बी को बड़ा होने की आवश्यकता होती है। प्रीटिंग की प्रक्रिया बनाने की प्रवृत्ति होती है। B छोटा जब वह सुरक्षित रूप से छोटा और बड़ा हो सकता है जब उसे बड़ा होने की आवश्यकता होती है। ”

कागज के अंत में वे इसकी तुलना एक अन्य प्रक्रिया से करते हैं जिसे निर्धारित करने के लिए प्रस्तावित किया गया है और वे पाते हैं कि उनका प्रदर्शन बेहतर है।B


4

अधिकांश बूटस्ट्रैपिंग अनुप्रयोगों को मैंने 2,000 से 100k पुनरावृत्तियों के आसपास देखा है। पर्याप्त सॉफ्टवेयर के साथ आधुनिक अभ्यास में, बूटस्ट्रैप के साथ मुख्य मुद्दे सांख्यिकीय हैं, समय और कंप्यूटिंग क्षमता से अधिक। एक्सेल के साथ नौसिखिए उपयोगकर्ताओं के लिए, कोई उन्नत विज़ुअल बेसिक प्रोग्रामिंग के उपयोग की आवश्यकता से पहले केवल कई सैकड़ों प्रदर्शन कर सकता है। हालाँकि, R उपयोग करने के लिए बहुत सरल है और हजारों बूटस्ट्रैप किए गए मानों की पीढ़ी को आसान और सीधा बनाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.