बूटस्ट्रैप पद्धति। क्यों यादृच्छिक प्रतिस्थापन के बजाय "प्रतिस्थापन के साथ" फिर से तैयार करें?


11

बूटस्ट्रैप विधि ने पिछले वर्षों में एक महान प्रसार देखा है, मैं इसका उपयोग भी बहुत करता हूं, विशेष रूप से क्योंकि पीछे तर्क काफी सहज है।

लेकिन यह एक बात है जो मुझे समझ नहीं आ रही है। Efron ने एकल टिप्पणियों को छोड़कर या बेतरतीब ढंग से हटाने के बजाय केवल प्रतिस्थापन के साथ फिर से प्रदर्शन करने के लिए क्यों चुना?

मुझे लगता है कि यादृच्छिक subsampling में एक बहुत अच्छी गुणवत्ता है, जो आदर्श रूप से वास्तविक जीवन की स्थिति का प्रतिनिधित्व करती है जिसमें हमारे अध्ययन में जो टिप्पणियां हैं वे एक काल्पनिक आबादी का सबसेट हैं। मैं resampling के दौरान गुणा टिप्पणियों होने का फायदा नहीं देखते हैं। वास्तविक संदर्भ में कोई अवलोकन अन्य के समान नहीं है, विशेष रूप से जटिल बहुभिन्नरूपी स्थितियों के लिए।


3
रेज़मैपलिंग के साथ रेज़मैपलिंग किया जाता है क्योंकि यह सही काम है, जिसे देखते हुए मॉडल दिया गया है। बूटस्ट्रैप के पीछे का मॉडल संचयी वितरण फ़ंक्शन का अनुमान लगाने के लिए गैर-पैरामीटर अधिकतम संभावना का उपयोग करना है, फिर अनुमानित संचयी वितरण फ़ंक्शन से स्वतंत्र टिप्पणियों का नमूना लेना है। इसके बारे में सोचो --- algoritmically, कि नमूना मूल नमूने से प्रतिस्थापन द्वारा प्राप्त किया जाता है।
kjetil b halvorsen

जवाबों:


10

इस विकल्प को समझने का एक तरीका यह है कि हाथ पर नमूने के बारे में सोचें कि आपके पास अंतर्निहित आबादी का सबसे अच्छा प्रतिनिधित्व है। आपके पास किसी भी अधिक से नमूना करने के लिए पूरी आबादी नहीं हो सकती है, लेकिन आपके पास आबादी का यह विशेष प्रतिनिधित्व है। जनसंख्या के इस प्रतिनिधित्व से वास्तव में यादृच्छिक पुन: नमूना का मतलब है कि आपको प्रतिस्थापन के साथ नमूना करना होगा, अन्यथा आपका बाद का नमूना आपके प्रारंभिक नमूने के परिणामों पर निर्भर करेगा। किसी विशेष बूटस्ट्रैप नमूने में बार-बार मामले की उपस्थिति अंतर्निहित आबादी के सदस्यों का प्रतिनिधित्व करती है, जिनके पास उस विशेष दोहराया मामले के करीब विशेषताओं हैं। जैसा कि आप सुझाव देते हैं, लीव-वन-आउट या लीव-आउट-आउट दृष्टिकोण, का भी उपयोग किया जा सकता है, लेकिन यह बूटस्ट्रैपिंग के बजाय क्रॉस सत्यापन है।

मुझे लगता है कि यह बहुत ज्यादा सिर्फ दूसरे शब्दों में @kjetil_b_halvorsen से टिप्पणी करता है


मुझे बात समझ में आ रही है। एक दूसरे से स्वतंत्र एक बूटस्ट्रैप नमूने में व्यक्तिगत टिप्पणियों बनाना। साहित्य में, उपसमुच्चय पर आधारित विधियाँ मौजूद हैं, पोलितिस, रोमानो, वुल्फ देखें। प्रतिस्थापन के बिना चुना गया n का एक निश्चित उप मी का उपयोग करें। वे आपके द्वारा पहले किए गए नुकसान से कैसे बचें? उनके मामले में फिर से मुझे समझ में नहीं आता है कि वे यादृच्छिक सदस्यता के बजाय एक निश्चित आकार की सदस्यता का उपयोग क्यों करते हैं।
बेकाबूग

2
सदस्यता विधि बूटस्ट्रैप से कुछ अलग करने की कोशिश कर रही है। वे विधियां अंतर्निहित जनसंख्या से एक नया यादृच्छिक नमूना अनुकरण करने के बजाय डेटा नमूने से यादृच्छिक सबसेट का चयन करना चाहती हैं । ऐसा नहीं है कि एक या दूसरा गलत है; वे अलग-अलग दृष्टिकोण हैं जिनमें विशेष ताकत और कमजोरियां हैं।
EdM

इसलिए शायद मुझे अनुमान पद्धति के आंकड़ों में दो विधि के बीच के अंतर के बारे में एक नया प्रश्न पूछना चाहिए। धन्यवाद!
बकाबुर्ग

@ बकाबुर इस सवाल को साहित्य में बूटस्ट्रैपिंग बनाम क्रॉस- वैरिफिकेशन (जो एक विशेष प्रकार की सबसम्पलिंग है) पर शानदार परिचय के लिए देखते हैं ।
एडीएम

@ बाकरबर्ग बूटस्ट्रैप विधि एक बड़ी आबादी से आकार n के यादृच्छिक नमूनों (न कि एक उपसमुच्चय) की बार-बार स्वतंत्र ड्राइंग का अनुकरण कर रही है। इसका मतलब यह है कि यह एक यादृच्छिक नमूना है, अभिभावक आबादी से अत्यधिक छोटे या बड़े मूल्यों की एक बड़ी संख्या होती है, जिन्हें अक्सर हमारे मूल नमूने में दर्शाया जाता है। जैसा कि एडएम ने बताया, डब्ल्यू / प्रतिस्थापन को फिर से खोलना एक एकल नमूना अवलोकन को आबादी में कई टिप्पणियों का "प्रतिनिधित्व" करने की अनुमति देता है जिनके समान मूल्य हैं - यह जनसंख्या वितरण का एक सहज अनुमान प्राप्त करने का एक तरीका है।
रॉबर्ट सेफ़
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.