हमेशा बूटस्ट्रैप CI का उपयोग क्यों नहीं किया जाता है?


12

मैं सोच रहा था कि बूटस्ट्रैप CI (और बारिक्युलर में BCa) सामान्य रूप से वितरित डेटा पर कैसा प्रदर्शन करता है। विभिन्न प्रकार के वितरणों पर उनके प्रदर्शन की जांच करने के लिए बहुत सारे काम लगते हैं, लेकिन सामान्य रूप से वितरित डेटा पर कुछ भी नहीं मिला। चूंकि पहले अध्ययन करने के लिए यह एक स्पष्ट बात लगती है, मुझे लगता है कि कागजात अभी बहुत पुराने हैं।

मैंने आर बूट पैकेज का उपयोग करते हुए कुछ मोंटे कार्लो सिमुलेशन किए और बूटस्ट्रैप सीआई को सटीक सीआई के साथ समझौते में पाया, हालांकि छोटे नमूनों (एन <20) के लिए वे थोड़ा उदार (छोटे सीआई) होते हैं। बड़े पर्याप्त नमूनों के लिए, वे अनिवार्य रूप से समान हैं।

इससे मुझे आश्चर्य होता है कि क्या कोई अच्छा कारण हमेशा बूटस्ट्रैपिंग का उपयोग नहीं करना है । वितरण सामान्य है या नहीं इसके पीछे के कई नुकसान का आकलन करने की कठिनाई को देखते हुए, यह उचित है कि वितरण के बावजूद बूट सीआईएसपी को तय न करें और रिपोर्ट न करें। मैं व्यवस्थित रूप से गैर-पैरामीट्रिक परीक्षणों का उपयोग न करने की प्रेरणा को समझता हूं, क्योंकि उनके पास कम शक्ति है, लेकिन मेरे सिमुलेशन मुझे बताते हैं कि बूटस्ट्रैप सीआईएस के लिए यह मामला नहीं है। वे और भी छोटे हैं।

इसी तरह का एक सवाल जो मुझे परेशान करता है, वह यह है कि हमेशा मध्य प्रवृत्ति के माप के रूप में माध्यिका का उपयोग क्यों न किया जाए। लोग अक्सर गैर-वितरित डेटा को चिह्नित करने के लिए इसका उपयोग करने की सलाह देते हैं, लेकिन चूंकि माध्य सामान्य रूप से वितरित डेटा के लिए माध्य के समान है, तो अंतर क्यों बनाते हैं? यह काफी फायदेमंद होगा यदि हम यह तय करने के लिए प्रक्रियाओं से छुटकारा पा सकते हैं कि क्या वितरण सामान्य है या नहीं।

मैं इन मुद्दों पर आपके विचारों के बारे में बहुत उत्सुक हूं, और क्या उनसे पहले चर्चा की गई है। संदर्भ की बहुत सराहना की जाएगी।

धन्यवाद!

पियरे


माध्य और माध्य के बारे में मेरा प्रश्न देखें: आंकड़े.stackexchange.com/questions/96371/…
एलेक्सिस

कई समस्याओं के लिए, resampling कम्प्यूटेशनल रूप से infeasible है। उदाहरण के लिए, यदि आप किसी बड़ी 3D मैट्रिक्स के लिए या लंबे समय तक श्रृंखला के लिए CI की गणना करना चाहते हैं।
जोना

जवाबों:


4

बीसीए अंतराल और यह तंत्र (यानी "सुधार कारक") के लिए प्रेरणा को देखना फायदेमंद है। बीसीए अंतराल बूटस्ट्रैप के सबसे महत्वपूर्ण पहलुओं में से एक है क्योंकि वे बूटस्ट्रैप परसेन्टाइल अंतराल के सामान्य मामले हैं (यानी विश्वास अंतराल केवल बूटस्ट्रैप वितरण पर ही आधारित है)।

विशेष रूप से, बीसीए अंतराल और बूटस्ट्रैप परसेंटाइल अंतराल के बीच संबंध को देखें: जब त्वरण के लिए समायोजन (पहला "सुधार कारक") और तिरछापन (दूसरा "सुधार कारक") दोनों शून्य हैं, तो बीसीए अंतराल वापस लौट जाते हैं। ठेठ बूटस्ट्रैप प्रतिशत अंतर।

मुझे नहीं लगता है कि यह हमेशा एक अच्छा विचार होगा कि बूटस्ट्रैपिंग का उपयोग करें। बूटस्ट्रैपिंग एक मजबूत तकनीक है जिसमें विभिन्न प्रकार के तंत्र हैं (उदा: आत्मविश्वास अंतराल और विभिन्न प्रकार की समस्याओं के लिए बूटस्ट्रैप के विभिन्न रूपांतर हैं, जैसे कि जंगली बूटस्ट्रैप जब विषमलैंगिकता होती है) विभिन्न समस्याओं के लिए समायोजन के लिए (उदा: गैर-सामान्यता ), लेकिन यह एक महत्वपूर्ण धारणा पर निर्भर करता है: डेटा सही आबादी का सही प्रतिनिधित्व करता है।

यह धारणा, हालांकि प्रकृति में सरल है, विशेष रूप से छोटे नमूना आकारों के संदर्भ में सत्यापित करना मुश्किल हो सकता है (यह हो सकता है कि एक छोटा सा नमूना सही आबादी का सटीक प्रतिबिंब है!)। यदि मूल नमूना जिस पर बूटस्ट्रैप वितरण (और इसलिए इसके परिणामस्वरूप आने वाले सभी परिणाम) पर्याप्त रूप से सटीक नहीं है, तो आपके परिणाम (और इसलिए उन परिणामों के आधार पर आपका निर्णय) त्रुटिपूर्ण होगा।

निष्कर्ष: बूटस्ट्रैप के साथ बहुत अधिक अस्पष्टता है और इसे लागू करने से पहले आपको सावधानी बरतनी चाहिए।


2
"यदि मूल नमूना जिस पर बूटस्ट्रैप वितरण (और इसलिए इसके परिणामस्वरूप आने वाले सभी परिणाम) पर्याप्त रूप से सटीक नहीं है, तो आपके परिणाम (और इसलिए उन परिणामों के आधार पर आपका निर्णय) त्रुटिपूर्ण होगा।" -> लेकिन क्या बूटस्ट्रैप CI इन मामलों में विश्लेषणात्मक विकल्प से भी बदतर प्रदर्शन करता है?
जोना

3
यह धारणा कि डेटा पर्याप्त रूप से जनसंख्या का प्रतिनिधित्व करता है केवल बूटस्ट्रैपिंग के लिए अनन्य नहीं है: यह सामान्य रूप से आंकड़ों से संबंधित है, इसलिए यदि डेटा अपर्याप्त है, तो किसी भी इंफ़ॉर्मेशन, बूटस्ट्रैप इनफ़ॉर्मेशन या अन्यथा, जिसे भ्रामक बना दिया गया है (एक गलत धारणा का अर्थ है) निष्कर्ष!)।
mmmmmmmmmm

4
तो यह चेतावनी बूटस्ट्रैप पर निर्देशित नहीं है, लेकिन अनुमान के बारे में है, और बूटस्ट्रैप को किसी अन्य विधि पर उपयोग करने के खिलाफ एक तर्क नहीं है, लेकिन निंदनीय तरीकों में पूर्ण विश्वास रखने के बारे में है। मैं नहीं देखता कि यह इस संदर्भ में कैसे प्रासंगिक है।
जोना

क्षमा करें, इस धागे पर थोड़ी देर .... @ जोना: यह प्रासंगिक नहीं होगा क्योंकि बूटस्ट्रैपिंग नमूने को और बढ़ाएगा? इसलिए यदि आपका नमूना जनसंख्या का दुर्भाग्यपूर्ण गलत चित्रण है तो बूटस्ट्रैपिंग का उपयोग आपको जनसंख्या केंद्र से और भी दूर भेज देगा? व्यवस्थित रूप से बूटस्ट्रैपिंग पर निर्भर होने के खिलाफ एक संभावित तर्क नहीं है?
सीसडॉग
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.