सत्यापन और मॉडल चयन के लिए बूटस्ट्रैपिंग को समझना


13

मुझे लगता है कि मैं समझता हूं कि बूटस्ट्रैपिंग के मूल सिद्धांत कैसे काम करते हैं, लेकिन मुझे यकीन नहीं है कि मैं समझता हूं कि मैं मॉडल चयन के लिए बूटस्ट्रैपिंग का उपयोग कैसे कर सकता हूं या ओवरफिटिंग से बचने के लिए।

उदाहरण के लिए, उदाहरण के लिए, क्या आप अपने बूटस्ट्रैप के नमूनों में सबसे कम त्रुटि (शायद विचरण?) पैदा करने वाले मॉडल का चयन करेंगे?

क्या कोई ग्रंथ है जो चर्चा करता है कि मॉडल चयन या सत्यापन के लिए बूटस्ट्रैपिंग का उपयोग कैसे करें?

EDIT: इस प्रश्न के पीछे और अधिक संदर्भ के लिए @ mark999 द्वारा इस धागे और उत्तर को देखें ।


@suncoolsu अगर मेरे पास मॉडल A, B और C है, तो मुझे चुनने के लिए आम तौर पर या तो क्रॉस सत्यापन या बूटस्ट्रैपिंग का उपयोग करना होगा जब एक मॉडल चुनने के लिए 1) मैं भविष्यवाणी सटीकता / रैंकिंग में दिलचस्पी रखता हूं और 2) मेरे पास पकड़ से बाहर के लिए पर्याप्त डेटा नहीं है। सत्यापन सेट। यह एक अच्छा विचार क्यों नहीं होगा (और मुझे पता है कि सुविधा चयन आदि के लिए नेस्टेड सत्यापन महत्वपूर्ण है)।
B_Miner

इस थ्रेड में @ mark999 द्वारा उत्तर बूटस्ट्रैप सत्यापन को पूर्ण डेटासेट पर एक मॉडल सीखने के समाधान के रूप में बताता है जबकि अभी भी ओवरफिटिंग का सामना कर रहा है। उस उत्तर ने इस प्रश्न को बहुत हद तक प्रेरित किया है, और उस धागे में मूल प्रश्न को इस प्रश्न के संदर्भ में भी जोड़ा जाना चाहिए।
एमिलियो वाज़क्वेज़-रीना

1
मुझे खेद है - शायद यह मैं एक सांख्यिकीविद् हूं - लेकिन मुझे लगता है कि दो अलग-अलग चीजों के रूप में क्रॉस-सत्यापन और बूटस्ट्रैप है। क्रॉस-मान्यता महान है और किया जाना चाहिए (और बूटस्ट्रैप भी)। लेकिन अगर आप A, B, C (केवल तीन मॉडल) के बीच के परिदृश्य में हैं, तो BIC एक बेहतर विकल्प हो सकता है। जैसा कि मैंने कहा, समाधान हाथ में समस्या पर निर्भर करता है और कई दृष्टिकोण उपयुक्त हो सकते हैं।
suncoolsu

2
AIC आम तौर पर BIC के मुकाबले कम उपज देता है।
फ्रैंक हरेल

जवाबों:


14

पहले आपको यह तय करना होगा कि क्या आपको वास्तव में मॉडल चयन की आवश्यकता है, या आपको बस मॉडल करने की आवश्यकता है। अधिकांश स्थितियों में, आयामीता के आधार पर, एक लचीले व्यापक मॉडल को फिट करना पसंद किया जाता है।

बूटस्ट्रैप एक मॉडल के प्रदर्शन का अनुमान लगाने का एक शानदार तरीका है। अनुमान लगाने के लिए सबसे सरल चीज विचरण है। आपके मूल बिंदु से अधिक, बूटस्ट्रैप किसी दिए गए मॉडलिंग प्रक्रिया के संभावित भविष्य के प्रदर्शन का अनुमान लगा सकता है, नए डेटा पर अभी तक एहसास नहीं हुआ है।

यदि दोनों मॉडल ट्यूनिंग मापदंडों को चुनने और मॉडल का अनुमान लगाने के लिए रेज़मैपलिंग (बूटस्ट्रैप या क्रॉस-वेलिडेशन) का उपयोग कर रहे हैं, तो आपको डबल बूटस्ट्रैप या नेस्टेड क्रॉस-वेलिडेशन की आवश्यकता होगी।

सामान्य तौर पर बूटस्ट्रैप को क्रॉस-वेलिडेशन की तुलना में कम मॉडल फिट (अक्सर लगभग 300) की आवश्यकता होती है (स्थिरता के लिए 10-गुना क्रॉस-सत्यापन को 50-100 बार दोहराया जाना चाहिए)।

कुछ सिमुलेशन अध्ययन http://biostat.mc.vanderbilt.edu/rms पर पाए जा सकते हैं


2
वाह, मुझे नहीं पता था कि 10 गुना सीवी को 50-100 बार दोहराया जाना चाहिए! मुझे अपनी पिछली परियोजना को फिर से देखना होगा और इसके बजाय बूटस्ट्रैप परीक्षण का प्रयास करना होगा। इस वेबसाइट से प्यार करें: मैं हर दिन कुछ सीखता हूं!
वेन

धन्यवाद @ फ्रेंक! मान लें कि मेरे पास समान # मापदंडों के साथ उम्मीदवार मॉडल का एक सेट है, क्या वे बूटस्ट्रैप के अनुमानों में कम विचरण करते हैं, बेहतर उम्मीदवारों (यह मानते हुए कि कुल नुकसान या जोखिम उन सभी के लिए समान था) ओवरफिटिंग से लड़ने के लिए?
एमिलियो वाज़केज़-रीना

मैं ऐसा नहीं मानूंगा लेकिन यह संभव है।
फ्रैंक हार्डेल

शानदार जवाब, धन्यवाद! मुझे नहीं पता था कि बूटस्ट्रैप का उपयोग मॉडल सत्यापन के लिए भी किया जा सकता है और क्रॉस सत्यापन को कई बार दोहराया जाना चाहिए। मुझे इस विधि का एक और फायदा दिखाई देता है: क्रॉस वैरिफिकेशन के लिए पहले (आमतौर पर 10) तह की संख्या निर्धारित करने की आवश्यकता होती है, आमतौर पर 10, जो इष्टतम के बजाय अधिक या कम अनुमानी है। लेकिन जब यह एक महान विधि है, तो यह क्रॉस सत्यापन के रूप में लोकप्रिय क्यों नहीं लगता है?
SiXUlm

बूटस्ट्रैप मॉडल सत्यापन काफी लोकप्रिय है, लेकिन क्रॉस-सत्यापन लंबे समय तक रहा है। लेकिन जैसा कि आपने कहा कि सीवी में # सिलवटों की पसंद में कुछ मनमानी है।
फ्रैंक हरेल

3

मॉडल औसत के लिए बूटस्ट्रैप का उपयोग करने पर विचार करें ।

नीचे दिया गया पेपर मदद कर सकता है, क्योंकि यह बूटस्ट्रैप मॉडल की तुलना में औसत (अधिक सामान्यतः उपयोग किए जाने वाले) की तुलना करता है, बेयसियन मॉडलिंग औसत है, और मॉडल के औसत प्रदर्शन के लिए एक नुस्खा देता है।

बूटस्ट्रैप मॉडल औसत समय के कण अध्ययन वायु प्रदूषण और मृत्यु दर का अध्ययन करता है


मैं ज्यादातर मामलों में मॉडल औसत के लिए बूटस्ट्रैप की सिफारिश नहीं करूंगा। बूटस्ट्रैप आपको यह बताने में सबसे अच्छा है कि एक मॉडलिंग प्रक्रिया कैसे निष्पादित करती है, बजाय यह बताने के कि आप एक नई प्रक्रिया कैसे बना सकते हैं। हालांकि इसके अपवाद भी हैं।
फ्रैंक हार्ले

@ फ्रेंक हरेल - सहमत। जिस पेपर को मैंने संदर्भित किया है वह उस क्षेत्र पर लागू होता है जिसमें मैं कभी-कभी काम करता हूं और मैंने आपके द्वारा बताए गए परिदृश्य के लिए बूटस्ट्रैप का उपयोग किया है: नमूने की त्रुटि के कारण किसी विशेष मॉडल की परिवर्तनशीलता का आकलन करना। लेकिन मॉडल चयन के कारण अनिश्चितता का आकलन करना और भी कठिन है और बूटस्ट्रैप मॉडल का औसत दृष्टिकोण एक सहायता के रूप में उपयोगी हो सकता है, विशेष रूप से अपने जैसे चिकित्सकों के लिए जो बेसेसियन मॉडल औसत के लिए समस्याओं को सुधारने के लिए अनुभव / पृष्ठभूमि की कमी रखते हैं।
जोश हेमन

2
नहीं, मैं कहूंगा कि बूटस्ट्रैप मॉडल को पहले से नहीं जानने के कारण होने वाले नुकसान का आकलन करने के लिए उत्कृष्ट है। इसका मतलब यह नहीं है कि चीजों को बेहतर बनाने के लिए आपको बूटस्ट्रैप का उपयोग करना चाहिए, जैसे कि अनिश्चित मॉडलों का एक सेट। यदि आपको बूटस्ट्रैप का उपयोग इस तरह से करना चाहिए, तो आपको औसत मॉडल के प्रदर्शन का एक ईमानदार मूल्यांकन प्राप्त करने के लिए एक डबल बूटस्ट्रैप की आवश्यकता होगी। मुझे ध्यान देना चाहिए कि यादृच्छिक वन बूटस्ट्रैप का उपयोग करके औसत मॉडल का एक रूप है।
फ्रैंक हरेल

डबल बूटस्ट्रैप के बारे में अच्छी बात है। मेरे द्वारा संदर्भित पेपर के लेखकों के पास इस बारे में एक अनुवर्ती पत्र है: बूटस्ट्रैप-आफ्टर-बूटस्ट्रैप मॉडल एवरेजिंग फॉर मॉडल
कमिंग

अच्छा। बस याद है कि अक्सर एक overkill है। विषय-चालित पूर्ण मॉडल को पोज़ करना और संकोचन (दंड) का उपयोग करना सबसे अच्छा है यदि यह ओवरफिट होता है; लेकिन यह अभी भी एक मॉडल है।
फ्रैंक हर्ले
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.