बूटस्ट्रैप: ओवरफिटिंग का मुद्दा


14

ड्राइंग द्वारा एक प्रदर्शन तथाकथित गैर पैरामीट्रिक बूटस्ट्रैप मान लीजिए आकार के नमूने मूल से प्रत्येक प्रतिस्थापन के साथ टिप्पणियों। मेरा मानना ​​है कि यह प्रक्रिया आनुभविक cdf द्वारा संचयी वितरण समारोह का आकलन करने के बराबर है:Bnn

http://en.wikipedia.org/wiki/Empirical_distribution_function

और फिर एक पंक्ति में अनुमानित cdf बार से टिप्पणियों का अनुकरण करके बूटस्ट्रैप नमूने प्राप्त करना ।nB

यदि मैं इसमें सही हूं, तो किसी को ओवरफिटिंग के मुद्दे को संबोधित करना होगा, क्योंकि अनुभवजन्य सीएफडी में एन मापदंडों के बारे में है। बेशक, asymptotically यह जनसंख्या cdf में परिवर्तित होता है, लेकिन परिमित नमूनों के बारे में क्या? उदाहरण के लिए, अगर मैं आपको बताऊं कि मेरे पास 100 अवलोकन हैं और मैं cdf को के रूप में दो मापदंडों के साथ अनुमान लगाने जा रहा हूं , तो आप चिंतित नहीं होंगे। हालाँकि, यदि मापदंडों की संख्या 100 तक जाती है, तो यह बिल्कुल उचित नहीं होगा।N(μ,σ2)

इसी तरह, जब कोई एक मानक कई रैखिक प्रतिगमन को नियोजित करता है, तो त्रुटि शब्द का वितरण रूप में अनुमानित किया जाता है । यदि कोई अवशिष्ट को बूटस्ट्रैप करने के लिए स्विच करने का निर्णय लेता है, तो उसे यह महसूस करना होगा कि अब n पैरामीटर हैं जिनका उपयोग केवल त्रुटि अवधि वितरण को संभालने के लिए किया जाता है।N(0,σ2)n

क्या आप मुझे कुछ ऐसे स्रोतों तक सीमित कर सकते हैं जो इस मुद्दे को स्पष्ट रूप से संबोधित करते हैं, या मुझे बताएं कि यदि आपको लगता है कि यह गलत है, तो यह मुद्दा क्यों नहीं है।


इस "गैर-पैरामीट्रिक" बूटस्ट्रैप को देखने का एक तरीका यह है कि यह सामान्यता के पैरामीट्रिक धारणा को "ब्याज की मात्रा" में कुछ बड़े, परिमित आबादी (जैसे रिकॉर्ड की जनगणना का मतलब) में परिवर्तित करता है। वास्तव में, आप दिखा सकते हैं कि बूटस्ट्रैप का यह संस्करण बहुराष्ट्रीय मॉडल के "अधिकतम संभावना" अनुमानों पर आधारित है, जनसंख्या में प्रत्येक विशिष्ट "प्रकार" के लिए 1 श्रेणी है।
प्रोबेबिलिसोलॉजिक

जवाबों:


2

मुझे पूरा यकीन नहीं है कि मैं आपके सवाल को सही समझ रहा हूँ ... मैं मान रहा हूँ कि आप अभिसरण के क्रम में रुचि रखते हैं?

क्योंकि अनुभवजन्य cdf में N पैरामीटर है। बेशक, asymptotically यह जनसंख्या cdf में परिवर्तित होता है, लेकिन परिमित नमूनों के बारे में क्या?

क्या आपने बूटस्ट्रैप सिद्धांत पर कोई मूल बातें पढ़ी हैं? समस्या यह है कि यह बहुत जल्दी जंगली (गणितीय) बहुत जल्दी हो जाता है।

वैसे भी, मैं एक नज़र में सलाह देते हैं

वैन डेर वार्ट "एसिम्प्टोटिक सांख्यिकी" अध्याय 23।

हॉल "बूटस्ट्रैप और एजवोरथ एक्सपैंशन" (वैन डर वार्ट की तुलना में लंबा (संक्षिप्त लेकिन संक्षिप्त और कम हाथ में लेना)

मूल बातें के लिए।

चेर्निक "बूटस्ट्रैप मेथड्स" गणितज्ञों के बजाय उपयोगकर्ताओं पर अधिक लक्षित है, लेकिन "जहां बूटस्ट्रैप विफल रहता है" पर एक खंड है।

शास्त्रीय एफ्रॉन / टिबशिरानी ने इस बात पर बहुत कम ध्यान दिया है कि बूटस्ट्रैप वास्तव में क्यों काम करता है ...


4

जैनसेन और पॉल ने दिखाया कि सांख्यिकीय रूप से काम करना बूटिंग को समान रूप से लागू करता है, अगर एक केंद्रीय सीमा प्रमेय भी लागू किया जा सकता था। तो अगर आप एक के मापदंडों का आकलन की तुलना आँकड़ों के वितरण के रूप में वितरण और बूटस्ट्रैप के माध्यम से आंकड़े के वितरण का आकलन बिंदु पूरी करता है।N(μ,σ2)

सहज रूप से, परिमित नमूनों से बूटस्ट्रैपिंग अंतर्निहित वितरण की भारी पूंछ को कम कर देता है। यह स्पष्ट है, क्योंकि परिमित नमूनों की परिमित सीमा होती है, भले ही उनकी सही वितरण सीमा अनंत हो या इससे भी बदतर, भारी पूंछ हो। इसलिए बूटस्ट्रैप स्टेटिस्टिक का व्यवहार मूल सांख्यिकीय के रूप में "जंगली" कभी नहीं होगा। तो (पैरामीट्रिक) प्रतिगमन में बहुत अधिक मापदंडों के कारण ओवरफिटिंग से बचने के समान, हम कुछ मापदंडों के सामान्य वितरण का उपयोग करके ओवरफिटिंग से बच सकते हैं।

टिप्पणियों का जवाब संपादित करें: याद रखें कि आपको cdf का अनुमान लगाने के लिए बूटस्ट्रैप की आवश्यकता नहीं है। आप आमतौर पर बूटस्ट्रैप का उपयोग कुछ आंकड़ों के वितरण (मात्राओं, क्षणों, जो भी आवश्यक हो) सहित व्यापक अर्थों में करते हैं। तो आप जरूरी एक समस्या overfitting है ("मेरे परिमित डेटा के कारण अनुमान बहुत अच्छा लग रहा है की तुलना में मैं सच जंगली वितरण के साथ देखना चाहिए")। लेकिन जैसा कि यह निकला (उद्धृत पेपर द्वारा और फ्रैंक हैरेल की टिप्पणी के अनुसार), इस तरह की ओवरफिटिंग समस्या को एक ही आंकड़ों के पैरामीट्रिक अनुमान के साथ समस्याओं से जोड़ा जाता है।

इसलिए जैसा कि आपका प्रश्न निहित है, बूटस्ट्रैपिंग पैरामीट्रिक अनुमान के साथ समस्याओं के खिलाफ एक रामबाण नहीं है। उम्मीद है कि बूटस्ट्रैप पूरे वितरण को नियंत्रित करके पैरामीटर समस्याओं के साथ मदद करेगा।


1
यह अभी भी स्पष्ट नहीं है कि बूटस्ट्रैप कैसे काम करता है, यह देखते हुए कि बूटस्ट्रैप में शामिल प्रभावी मापदंडों की संख्या नमूनों के आकार के समान है। मेरा एक अनुमान है: बूटस्ट्रैप का अंतिम लक्ष्य संपूर्ण वितरण का अनुमान लगाना नहीं है, बल्कि वितरण के 1-2 आंकड़ों का अनुमान लगाना है। इसलिए, इसके बावजूद कि बूटस्ट्रैप में अंतर्निहित अनुभवजन्य सीएफडी अत्यधिक रूप से समाप्त हो गया है, 1-2 अनुमानित आंकड़े किसी भी तरह ठीक हो जाते हैं। क्या मैने इसे सही समझा?
जेम्स

4
प्रभावी मापदंडों की संख्या नमूना आकार के समान नहीं है। अनुभवजन्य संचयी वितरण समारोह का विचरण लगभग वितरण के लिए एक पैरामीट्रिक के विचरण के समान होता है जब वितरण में अनुमान लगाने के लिए 4 अज्ञात पैरामीटर होते हैं। एक कारण यह है कि अनुभवजन्य सीडीएफ अनुमान आरोही क्रम में होने के लिए मजबूर किया जाता है।
फ्रैंक हरेल

अच्छी बात। क्या आप एक संदर्भ प्रदान कर सकते हैं?
जेम्स

काश मेरे पास एक होता। मैंने मोंटे कार्लो सिमुलेशन द्वारा अतीत में यह दिखाया है।
फ्रैंक हरेल

L2F^FF^(x)F(x)

0

अंतर्ज्ञान का एक स्रोत आईआईडी डेटा के लिए पैरामीट्रिक सीडीएफ बनाम ईसीडीएफ के लिए अभिसरण की दरों की तुलना करना हो सकता है।

n1/2

n1/2σμ

तो एक निश्चित अर्थ में, जिस दर पर आपको अधिक नमूने प्राप्त करने की आवश्यकता होती है, वही है, चाहे आप एक सीडीआर का उपयोग कर रहे हैं एक अनुभवजन्य सीडीएफ का उपयोग कर रहे हैं या क्या आप नमूना-मीन-प्रकार के अनुमानक का उपयोग करके सीधे एक पैरामीटर का अनुमान लगा रहे हैं। यह फ्रैंक हैरेल की टिप्पणी को सही ठहराने में मदद कर सकता है कि "प्रभावी मापदंडों की संख्या नमूना आकार के समान नहीं है।"

बेशक, यह पूरी कहानी नहीं है। हालांकि दरों में अंतर नहीं है, स्थिरांक करते हैं। और ECDFs की तुलना में नॉनपैरेमेट्रिक बूटस्ट्रैप के लिए बहुत कुछ है --- आपको अनुमान लगाने के बाद भी ईसीडीएफ के साथ चीजों को करने की आवश्यकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.