क्रॉस-मान्यता: K- गुना बनाम दोहराया यादृच्छिक उप-नमूना


10

मुझे आश्चर्य है कि वर्गीकरण समस्या के लिए किस प्रकार का मॉडल क्रॉस-वेलिडेशन: के-गुना या रैंडम सब-सैंपलिंग (बूटस्ट्रैप नमूनाकरण)?

मेरा सबसे अच्छा अनुमान प्रशिक्षण के लिए डेटा सेट के 2/3 (जो ~ 1000 आइटम हैं) और सत्यापन के लिए 1/3 का उपयोग करना है।

इस मामले में के-गुना केवल तीन पुनरावृत्तियों (सिलवटों) देता है, जो स्थिर औसत त्रुटि को देखने के लिए पर्याप्त नहीं है।

दूसरी ओर मुझे यादृच्छिक उप-नमूना सुविधा पसंद नहीं है: कि कुछ वस्तुओं को कभी भी प्रशिक्षण / सत्यापन के लिए नहीं चुना जाएगा, और कुछ का उपयोग एक से अधिक बार किया जाएगा।

वर्गीकरण एल्गोरिदम का इस्तेमाल किया: यादृच्छिक वन और उपस्कर प्रतिगमन।


1
मुझे लगता है कि एक पूर्व प्रश्न है: क्या यह चयन एल्गोरिथ्म (मुख्य रूप से इसके व्यवहार) पर निर्भर नहीं है?
Rubens

1
@ रुबेंस, मैंने सवाल अपडेट किया है: मैं RF और लॉजिस्टिक रिग्रेशन में इंटरस्टेड हूं
IharS

जवाबों:


7

यदि आपके पास पर्याप्त संख्या में नमूने हैं और सभी डेटा का उपयोग करना चाहते हैं, तो k- गुना क्रॉस-वैरिफिकेशन जाने का रास्ता है। ~ 1,500 होने में बहुत कुछ लगता है, लेकिन क्या यह k- गुना क्रॉस-सत्यापन के लिए पर्याप्त है, यह डेटा की गतिशीलता (विशेषताओं की संख्या और विशेषता मानों की संख्या) पर भी निर्भर करता है। उदाहरण के लिए, यदि प्रत्येक अवलोकन में 100 विशेषताएँ हैं, तो 1,500 अवलोकन कम है।

के-फोल्ड क्रॉस-वैलिडेशन के लिए एक और संभावित नकारात्मक परिणाम की एकल, अत्यधिक बाहरी विषमता की संभावना है। उदाहरण के लिए, यदि आपके पास एक अत्यंत बाहरी है जो आपके क्लासिफायर को भारी रूप से पूर्वाग्रहित कर सकता है, तो 10-गुना क्रॉस-मान्यता में, 9 में से 10 विभाजन प्रभावित होंगे (हालांकि यादृच्छिक जंगलों के लिए, मुझे नहीं लगता कि आपको वह समस्या होगी )।

रैंडम सबमामलिंग (जैसे, बूटस्ट्रैप सैंपलिंग) तब बेहतर होता है जब आप या तो अंडरस्क्रम्प्ड होते हैं या जब आपके पास ऊपर की स्थिति होती है, जहां आप नहीं चाहते कि प्रत्येक अवलोकन k-1 सिलवटों में दिखाई दे।


4

मुझे लगता है कि आप कहते हैं कि आप 3-गुना क्रॉस-सत्यापन का उपयोग करना चाहते हैं क्योंकि आप अपने डेटा के बारे में कुछ जानते हैं (कि k = 10 का उपयोग करने से बहुत अधिक परेशानी होगी? मैं आपके तर्क के लिए उत्सुक हूं)। मुझे यकीन नहीं है कि आप यह जानते हैं, यदि नहीं तो आप बस एक बड़े k का उपयोग कर सकते हैं।

यदि आप अभी भी सोचते हैं कि आप मानक k- गुना क्रॉस-सत्यापन का उपयोग नहीं कर सकते हैं, तो आप एल्गोरिथ्म को थोड़ा संशोधित कर सकते हैं: कहते हैं कि आप डेटा को 30 गुना में विभाजित करते हैं और हर बार प्रशिक्षण के लिए 20 और मूल्यांकन के लिए 10 का उपयोग करते हैं (और फिर ऊपर जाते हैं एक गुना और मूल्यांकन के रूप में पहले और अंतिम 9 का उपयोग करें और बाकी प्रशिक्षण के रूप में)। इसका मतलब है कि आप अपने सभी डेटा का उपयोग करने में सक्षम हैं।

जब मैं k- गुना क्रॉस-वैधीकरण का उपयोग करता हूं तो मैं आमतौर पर प्रक्रिया को कई बार एक अलग यादृच्छिकता के साथ चलाता हूं ताकि यह सुनिश्चित हो सके कि मेरे पास पर्याप्त डेटा है, अगर आप रैंडमाइजेशन के आधार पर अलग-अलग प्रदर्शन नहीं देखेंगे। ऐसे मामलों में मैं नमूना लेने का सुझाव दूंगा। चाल तो यह अक्सर पर्याप्त करने के लिए है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.