बूटस्ट्रैप वितरण के माध्यम की रिपोर्ट क्यों नहीं की गई?


30

जब कोई मानक त्रुटि प्राप्त करने के लिए एक पैरामीटर बूटस्ट्रैप करता है तो हमें पैरामीटर का वितरण मिलता है। हम उस वितरण के माध्यम का उपयोग क्यों नहीं करते हैं जिसके परिणामस्वरूप या हम जिस पैरामीटर को पाने की कोशिश कर रहे हैं, उसके लिए अनुमान लगाते हैं? क्या वितरण वास्तविक नहीं है? इसलिए हमें "वास्तविक" मूल्य का एक अच्छा अनुमान मिलेगा? फिर भी हम अपने नमूने से प्राप्त मूल पैरामीटर की रिपोर्ट करते हैं। ऐसा क्यों है?

धन्यवाद

जवाबों:


24

क्योंकि बूटस्ट्रैप्ड आँकड़ा आपके जनसंख्या पैरामीटर से एक और अमूर्त है। आपके पास आपका जनसंख्या पैरामीटर, आपका नमूना आँकड़ा है, और केवल तीसरी परत पर आपके पास बूटस्ट्रैप है। बूटस्ट्रैप्ड माध्य मान आपके जनसंख्या पैरामीटर के लिए बेहतर अनुमानक नहीं है। यह केवल एक अनुमान का अनुमान है।

के रूप में बूटस्ट्रैप ज्यादा एक ही परिस्थितियों में आबादी पैरामीटर के आसपास नमूना आंकड़ा केन्द्रों की तरह नमूना आंकड़ा चारों ओर हर संभव बूटस्ट्रैप संयोजन केन्द्रों युक्त वितरण। इस पत्र यहाँ इन चीजों को काफी अच्छी तरह से योग और यह सबसे आसान मैं मिल सकता है में से एक है। अधिक विस्तृत प्रमाणों के लिए उन कागजात का अनुसरण करें, जिन्हें वे संदर्भित कर रहे हैं। उल्लेखनीय उदाहरण एफ्रॉन (1979) और सिंह (1981) हैंn

की बूटस्ट्रैप वितरण का वितरण इस प्रकार θ - θ और जो इसे एक नमूना अनुमान की मानक त्रुटि के आकलन में उपयोगी बनाता है, विश्वास के अंतराल के निर्माण में, एक पैरामीटर के पूर्वाग्रह के आकलन में। यह आबादी के पैरामीटर के लिए इसे बेहतर अनुमानक नहीं बनाता है। यह केवल सांख्यिकीय के वितरण के लिए सामान्य पैरामीट्रिक वितरण के लिए कभी-कभी बेहतर विकल्प प्रदान करता है।θBθ^θ^θ


13

कम से कम एक मामला है जहां लोग बूटस्ट्रैप वितरण के माध्यम का उपयोग करते हैं: बैगिंग ( बूटस्ट्रैप एकत्रीकरण के लिए छोटा )।

मूल विचार यह है कि यदि आपका अनुमानक डेटा में गड़बड़ी के लिए बहुत संवेदनशील है (यानी, अनुमानक में उच्च विचरण और निम्न पूर्वाग्रह हैं), तो आप विशेष उदाहरणों की ओवरफिटिंग की मात्रा को कम करने के लिए बहुत सारे बूटस्ट्रैप नमूनों का औसत कर सकते हैं।

जिस पृष्ठ से मैं जुड़ा हुआ हूं, वह बताता है कि यह आपके अनुमान में कुछ पूर्वाग्रह का परिचय देता है, यही वजह है कि नमूना माध्य अक्सर आपके बूटस्ट्रैप नमूनों की तुलना में अधिक समझ में आता है। लेकिन अगर आपके पास निर्णय पेड़ या निकटतम पड़ोसी क्लासिफायर जैसा कुछ है जो डेटा में छोटे बदलावों के जवाब में मौलिक रूप से बदल सकता है, तो यह पूर्वाग्रह उतनी बड़ी चिंता का विषय नहीं हो सकता है।


1
yθ

मैं आम तौर पर प्रतिक्रिया के लिए किसी के अनुमानों के विचरण को कम करने के लिए इस्तेमाल होने वाले बैगिंग को देखता हूं (यानी डेटा में उतार-चढ़ाव के प्रति संवेदनशीलता)। आमतौर पर सबसे अधिक पाए जाने वाले मॉडल (जैसे पेड़) में आमतौर पर अच्छी तरह से परिभाषित पैरामीटर नहीं होते हैं, जो कि बूटस्ट्रैप नमूनों की तुलना में आसानी से हो जाते हैं।
डेविड जे। हैरिस

धन्यवाद, ठीक यही मैंने भी सोचा था। मेरे लिए बैगिंग किसी प्रतिक्रिया के अनुमान के अलावा किसी अन्य चीज़ के लिए बहुत अधिक समझ में नहीं आता है, इसलिए यह उस अर्थ में सीमित है।
मोमो

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.