बूटस्ट्रैपिंग और क्रॉस-वैलिडेशन के बीच अंतर क्या है?


21

मैं अपने मशीन लर्निंग मॉडल के मजबूत मूल्यांकन के लिए के-गुना क्रॉस-वैरिफिकेशन लागू करता था। लेकिन मैं इस उद्देश्य के लिए बूटस्ट्रैपिंग विधि के अस्तित्व से भी अवगत हूं। हालाँकि, मैं प्रदर्शन आकलन के संदर्भ में उनके बीच मुख्य अंतर नहीं देख सकता।

जहाँ तक मैं देख रहा हूँ, बूटस्ट्रैपिंग भी एक निश्चित संख्या में यादृच्छिक प्रशिक्षण + परीक्षण उप-समूह (एक अलग तरीके से) का उत्पादन कर रहा है, तो सीवी से अधिक इस विधि का उपयोग करने के लिए क्या लाभ है? केवल एक चीज जो मैं समझ सकता था कि बूटस्ट्रैपिंग के मामले में कोई व्यक्ति कृत्रिम रूप से इस तरह के सबसेट की संख्या को मनमाने ढंग से पैदा कर सकता है जबकि CV के लिए इंस्टेंस की संख्या इसके लिए एक तरह की सीमा है। लेकिन यह पहलू बहुत कम उपद्रव लगता है।

जवाबों:


18

क्रॉस वैरिफिकेशन और बूटस्ट्रैपिंग दोनों ही रीसम्पलिंग के तरीके हैं।

  • बूटस्ट्रैप प्रतिस्थापन के साथ बदलता रहता है (और आमतौर पर नए "सरोगेट" डेटा सेट करता है जो मूल डेटा सेट के समान मामलों के साथ होता है)। प्रतिस्थापन के साथ ड्राइंग के कारण, बूटस्ट्रैप्ड डेटा सेट में एक ही मूल मामलों के कई उदाहरण हो सकते हैं, और अन्य मूल मामलों को पूरी तरह से छोड़ सकते हैं।
  • प्रतिस्थापन के बिना क्रॉस वेलिडेशन रिसैम्पल्स और इस तरह सरोगेट डेटा सेट का उत्पादन होता है जो मूल से छोटा होता है। ये डेटा सेट एक व्यवस्थित तरीके से इतना है कि एक पूर्व निर्धारित संख्या के बाद उत्पादित कर रहे हैं सरोगेट डेटा सेट के, में से प्रत्येक ठीक एक बार मूल मामलों बाहर छोड़ दिया गया है। इसे k- फोल्ड क्रॉस वेलिडेशन या लीव- x- आउट क्रॉस वैरिडेशन विथ , जैसे लीव -वन-आउट क्रॉस वैरीगेशन प्रत्येक सरोगेट सेट के लिए 1 केस छोड़ देता है, अर्थात ।nएक्स=n=n

  • जैसा कि नाम क्रॉस सत्यापन से पता चलता है, इसका प्राथमिक उद्देश्य एक मॉडल का प्रदर्शन (सामान्यीकरण) माप रहा है। इसके विपरीत, बूटस्ट्रैपिंग का उपयोग मुख्य रूप से आँकड़ों की व्यापक रेंज के लिए अनुभवजन्य वितरण कार्यों को स्थापित करने के लिए किया जाता है (जैसा कि कहा जाता है, जैसे कि, बैगेड पहनावा मॉडल में मॉडल की भिन्नता के लिए माध्य की भिन्नता)।

  • बूटस्ट्रैग प्रक्रिया के छुट्टी-एक-आउट एनालॉग को जैकक्निफिंग कहा जाता है (और यह वास्तव में बूटस्ट्रैपिंग से पुराना है)।

  • सामान्यीकरण त्रुटि के सत्यापन अनुमानों को पार करने के लिए बूटस्ट्रैप एनालॉग को आउट-ऑफ-बूटस्ट्रैप अनुमान कहा जाता है (क्योंकि परीक्षण के मामले वे हैं जो बूटस्ट्रैप के पुन: सेट किए गए प्रशिक्षण सेट से बाहर रह गए थे)।

[क्रॉस वैलिडटन बनाम आउट-ऑफ-बूटस्ट्रैप सत्यापन] हालांकि, मैं प्रदर्शन अनुमान के संदर्भ में उनके बीच मुख्य अंतर नहीं देख सकता।

यह अंतर्ज्ञान सही है: व्यवहार में अक्सर iterated -fold क्रॉस सत्यापन और आउट-ऑफ-बूटस्ट्रैप के बीच अंतर नहीं होता है । मूल्यांकन किए गए सरोगेट मॉडल की कुल संख्या के साथ, कुल त्रुटि [मॉडल भविष्यवाणी त्रुटि माप के] को समान पाया गया है, हालांकि ओओबी में आमतौर पर संबंधित सीवी अनुमानों की तुलना में अधिक पूर्वाग्रह और कम विचरण होता है।

ऊब पूर्वाग्रह (.632-बूटस्ट्रैप, .632 + -बूटस्ट्रैप) को कम करने के लिए कई प्रयास हैं लेकिन क्या वे वास्तव में स्थिति में सुधार करेंगे या नहीं, यह स्थिति हाथ पर निर्भर करती है।

साहित्य:


केवल एक चीज जो मैं समझ सकता था कि बूटस्ट्रैपिंग के मामले में कोई व्यक्ति कृत्रिम रूप से इस तरह के सबसेट की संख्या को मनमाने ढंग से पैदा कर सकता है जबकि CV के लिए इंस्टेंस की संख्या इसके लिए एक तरह की सीमा है।

हां, सीवी के लिए बूटस्ट्रैपिंग की तुलना में कम संयोजन संभव हैं। लेकिन सीवी के लिए सीमा शायद आपकी जानकारी से अधिक है। मामलों और फोल्ड क्रॉस सत्यापन के साथ सेट किए गए डेटा के लिए , आपके पास हैn

  • CV प्रतिस्थापन के बिना संयोजन (k <n के लिए कि संभावनाएं हैं जो आमतौर पर अलग-अलग हैं) बनाम कहीं अधिक हैं बनाम।(n)
  • बूटस्ट्रैप / oob प्रतिस्थापन के साथ संयोजन (जो कि फिर से कहीं अधिक हैं, कहते हैं, 100 या 1000 सरोगेट मॉडल जिनका आमतौर पर मूल्यांकन किया जाता है)(2n-1n)

3

बूटस्ट्रैपिंग कोई भी परीक्षण या मीट्रिक है, जो प्रतिस्थापन के साथ यादृच्छिक नमूने पर निर्भर करता है। यह एक ऐसी विधि है जो कई स्थितियों में मदद करता है जैसे कि एक भविष्य कहनेवाला मॉडल के प्रदर्शन की पुष्टि, तरीकों को इकट्ठा करना, एक मॉडल के पैरामीटर के पूर्वाग्रह और विचरण का अनुमान आदि द्वारा यह काम करता है। मूल डेटासेट से प्रतिस्थापन के साथ नमूना प्रदर्शन करना, और एक ही समय में यह मानते हुए कि डेटा पॉइंट जो चॉप नहीं किए गए हैं, टेस्ट डेटासेट हैं। हम इस प्रक्रिया को कई बार दोहरा सकते हैं और हमारे मॉडल के प्रदर्शन के आकलन के रूप में औसत स्कोर की गणना कर सकते हैं। इसके अलावा, बूटस्ट्रैपिंग पहनावा प्रशिक्षण विधियों से संबंधित है, क्योंकि हम प्रत्येक बूटस्ट्रैप डेटासेट का उपयोग करके एक मॉडल का निर्माण कर सकते हैं और इन मॉडलों को बहुमत वोटिंग (वर्गीकरण के लिए) का उपयोग करते हुए या सभी के लिए औसत (संख्यात्मक कार्यों के लिए) कंप्यूटिंग का उपयोग कर सकते हैं हमारे अंतिम परिणाम के रूप में ये मॉडल।

क्रॉस सत्यापन मॉडल के प्रदर्शन को मान्य करने के लिए एक प्रक्रिया है, और यह प्रशिक्षण डेटा को k भागों में विभाजित करके किया जाता है। हम मानते हैं कि k-1 भाग प्रशिक्षण सेट है और दूसरे भाग का उपयोग हमारा परीक्षण सेट है। हम हर बार डेटा के एक अलग हिस्से को अलग-अलग रखने के लिए उस k समय को दोहरा सकते हैं। अंत में, हम अपने प्रदर्शन अनुमान के रूप में k स्कोर का औसत लेते हैं। क्रॉस सत्यापन पूर्वाग्रह या विचरण से पीड़ित हो सकता है। विभाजन की संख्या बढ़ने से विचरण भी बढ़ेगा और पूर्वाग्रह घटेंगे। दूसरी ओर, यदि हम विभाजन की संख्या कम करते हैं, तो पूर्वाग्रह बढ़ जाएगा और विचरण कम हो जाएगा।

सारांश में, क्रॉस सत्यापन कई डेटासेट बनाने के लिए उपलब्ध डेटासेट को विभाजित करता है, और बूटस्ट्रैपिंग विधि प्रतिस्थापन के साथ फिर से शुरू करने के बाद कई डेटासेट बनाने के लिए मूल डेटासेट का उपयोग करता है। बूटस्ट्रैपिंग यह क्रॉस सत्यापन के रूप में मजबूत नहीं है जब इसका उपयोग मॉडल सत्यापन के लिए किया जाता है। बूटस्ट्रैपिंग एन्सेम्बल मॉडल के निर्माण या सिर्फ मापदंडों का आकलन करने के बारे में अधिक है।


2

क्रॉस-सत्यापन एक ऐसी तकनीक है जिसका उद्देश्य यह देखना है कि आपका मॉडल उन डेटा पर कितना सामान्य है, जिनके साथ प्रशिक्षित नहीं किया गया था। यह आपके एल्गोरिदम परिणामों को प्रभावित नहीं करता है, यह सिर्फ उनका मूल्यांकन करता है।

बूटस्ट्रैपिंग एक एसेम्बल विधि है जो औसत उत्पादन का उत्पादन करने के लिए कई मॉडल के आउटपुट, जैसे निर्णय पेड़, को एकत्रित करता है । तकनीकी रूप से, यह एक वर्गीकरण एल्गोरिथ्म के विचरण को कम करता है जो एक एकल मॉडल पर आधारित है, क्योंकि यह एक ही मॉडल संरचना के कई वेरिएंट के आउटपुट पर औसत उत्पादन करता है (विभिन्न मापदंडों के साथ)। इसलिए यह वर्गीकरण एल्गोरिदम के प्रदर्शन को बदलता है, यह इसका मूल्यांकन नहीं करता है।

दूसरे शब्दों में : क्रॉस-मान्यता का मूल्यांकन करता है कि एल्गोरिथ्म कितनी अच्छी तरह से सामान्यीकरण करता है, जबकि बूटस्ट्रैपिंग वास्तव में एल्गोरिदम को बेहतर बनाने में मदद करता है।

आप वास्तव में बूटस्ट्रैप्ड मॉडल पर क्रॉस-सत्यापन का उपयोग कर सकते हैं यह देखने के लिए कि यह सामान्य रूप से कितना अच्छा है।


3
सही नहीं बूटिंग बैगिंग?
हाथीमोटिव

0
  • क्रॉस-वैलिडेशन: परीक्षण त्रुटि के अनुमान प्रदान करते हैं।
  • बूटस्ट्रैप: अनुमानों की मानक त्रुटि प्रदान करता है।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.