10-गुना क्रॉस-सत्यापन बनाम छुट्टी-एक-आउट क्रॉस-सत्यापन


25

मैं नेस्ट क्रॉस-वेलिडेशन कर रहा हूं। मैंने पढ़ा है कि लीव-वन-आउट क्रॉस-वैरिडेशन को बायस्ड किया जा सकता है (याद नहीं क्यों)।

क्या 10-गुना क्रॉस-वैलिडेशन या लीव-वन-आउट-क्रॉस-वेलिडेशन का उपयोग करना बेहतर है, लीव-वन-आउट क्रॉस-वैलिडेशन के लिए लंबी अवधि के अलावा?


1
क्या आपको याद है कि आपने कहां पढ़ा है?
रिचर्ड हार्डी

5
क्या आपने पूर्वाग्रह के बारे में यह पोस्ट देखी है ? साथ ही, इस उत्तर में एक बहुत अच्छी पुस्तक का उद्धरण है जो 5-गुना या 10-गुना क्रॉस सत्यापन की सिफारिश करता है।
एरिक फरंगे

1
यह पोस्ट थोड़ा संबंधित है।
रिचर्ड हार्डी

1
धन्यवाद। तो इस सब में यह कहा जा सकता है कि मुझे छुट्टी-एक-आउट सीवी के बजाय 10 गुना सीवी के साथ जाना चाहिए? क्या यह एक छोटे डेटासेट के लिए भी है?
मशीनरी

1
@ थोमस, जब आपका डेटासेट बहुत छोटा हो जाता है, तो आप लगभग LOO-CV करते हैं, इसलिए 10-गुना CV का लाभ कम हो जाता है क्योंकि आपका डेटासेट आकार कम हो जाता है।
19

जवाबों:


27

बस @SubravetiSuraj (+1) के जवाब में थोड़ा जोड़ना

क्रॉस-मान्यता प्रदर्शन के एक निराशावादी पक्षपाती अनुमान देता है क्योंकि प्रशिक्षण सेट को बड़ा बनाने पर अधिकांश सांख्यिकीय मॉडल में सुधार होगा। इसका मतलब यह है कि के-फोल्ड क्रॉस-वैलिडेशन किसी डेटासेट के 100 * (के -1) / k% पर उपलब्ध मॉडल के प्रदर्शन का अनुमान लगाता है, बजाय इसके 100% पर। इसलिए यदि आप प्रदर्शन का अनुमान लगाने के लिए क्रॉस-वैलिडेशन करते हैं, और फिर परिचालन उपयोग के लिए सभी डेटा पर प्रशिक्षित मॉडल का उपयोग करते हैं, तो यह क्रॉस-वैलिडेशन अनुमान से थोड़ा बेहतर प्रदर्शन करेगा।

लीव-वन-आउट क्रॉस-सत्यापन लगभग निष्पक्ष है , क्योंकि प्रत्येक तह में उपयोग किए गए प्रशिक्षण सेट और पूरे डेटासेट के बीच आकार में अंतर केवल एक ही पैटर्न है। Luntz और Brailovsky (रूसी में) द्वारा इस पर एक पेपर है।

Luntz, Aleksandr, और विक्टर Brailovsky। "मान्यता की सांख्यिकीय प्रक्रिया में प्राप्त वर्णों के आकलन पर।" टेक्निस्काया कैबरनेटिका 3.6 (1969): 6-12।

यह भी देखें

विवेचक विश्लेषण पीटर ए। लचेंब्रुक और एम। रे। मिकी टेक्नोमेट्रिक्स वॉल्यूम में त्रुटि दर का अनुमान। 10, ईएस। 1,1968

हालाँकि, जब छुट्टी-एक-आउट क्रॉस-सत्यापन लगभग निष्पक्ष होता है, तो इसमें उच्च विचरण होता है (इसलिए यदि आप एक ही वितरण से डेटा के विभिन्न प्रारंभिक नमूनों के साथ अनुमान दोहराते हैं तो आपको बहुत अलग अनुमान मिलेंगे)। जैसा कि अनुमानक की त्रुटि पूर्वाग्रह और विचरण का एक संयोजन है, चाहे 10-गुना क्रॉस-सत्यापन से छुट्टी-एक-आउट क्रॉस-सत्यापन दोनों मात्राओं पर निर्भर करता है।

अब मॉडल को फिट करने में भिन्नता अधिक हो जाती है यदि इसे एक छोटे डेटासेट के लिए फिट किया जाता है (क्योंकि यह विशेष रूप से उपयोग किए गए प्रशिक्षण नमूने में किसी भी शोर / नमूना कलाकृतियों के लिए अधिक संवेदनशील है)। इसका मतलब है कि 10-गुना क्रॉस-वैलिडेशन में उच्च विचरण (साथ ही साथ एक उच्च पूर्वाग्रह) होने की संभावना है यदि आपके पास केवल सीमित मात्रा में डेटा है, क्योंकि प्रशिक्षण सेट का आकार एलओओसीवी से छोटा होगा। तो के-फोल्ड क्रॉस-वैरिफिकेशन में विचरण के मुद्दे भी हो सकते हैं, लेकिन एक अलग कारण से। यही कारण है कि डेटासेट का आकार छोटा होने पर LOOCV अक्सर बेहतर होता है।

हालांकि, मेरी राय में LOOCV का उपयोग करने का मुख्य कारण यह है कि कुछ मॉडलों (जैसे रैखिक प्रतिगमन, अधिकांश कर्नेल विधियां, निकटतम-पड़ोसी क्लासिफायर, आदि) के लिए यह कम्प्यूटेशनल रूप से सस्ता है, और जब तक कि डाटासेट बहुत छोटा नहीं था, मैं उपयोग करूंगा। यदि यह मेरे कम्प्यूटेशनल बजट, या बेहतर अभी भी, बूटस्ट्रैप आकलन और बैगिंग में फिट है, तो 10 गुना क्रॉस-सत्यापन।


2
अस्पष्ट 1969 रूसी संदर्भ के लिए +1! क्या आपके पास LOOCV के लिए उच्च संस्करण होने का अच्छा संदर्भ है? यह हस्ती एट अल में कहा गया है, लेकिन मुझे यकीन नहीं है कि मैं तर्क से 100% आश्वस्त हूं और मैंने अनुभवजन्य प्रदर्शन (सिमुलेशन) नहीं देखा है।
अमीबा का कहना है कि

3
हां, मुझे नहीं लगता कि मैं इसके साथ सहमत हूं, क्योंकि यह मानता है कि परीक्षण नमूनों को हटाने के कारण होने वाले गड़बड़ी के तहत मॉडल स्थिर है, जो कि आपके बहुत बड़े डेटासेट (यानी यह है) के सही होने की संभावना है केवल asymptotically सच है, लेकिन अगर आपके पास इतना डेटा था, तो लगभग कोई भी समझदार प्रदर्शन मूल्यांकन योजना आपको वही परिणाम देगी)।
डिक्रान मार्सुपियल

2
+1 (दोनों पोस्ट के साथ-साथ नवीनतम टिप्पणी - महान कागज लेकिन किसी भी अन्य पेपर के रूप में) अंधा नहीं किया जाना चाहिए।
us --r11852 का कहना है कि

2
@Dikran यह विषय (LOOCV का सबसे बड़ा संस्करण है) एक अलग और काफी दिलचस्प सवाल में फिर से आया: आंकड़े.stackexchange.com/questions/280665 , आप एक नज़र रखना चाह सकते हैं।
अमीबा का कहना है कि मोनिका

2
यहाँ एक और अनुकार आँकड़े है ।stackexchange.com/a/357749 दिखा रहा है कि CV अनुमानक का विचरण सिलवटों की संख्या के साथ घटता है और LOOCV में 10 गुना के समान (या निम्न) विचरण होता है। ऊपर मेरी टिप्पणी में जुड़े एक और सिमुलेशन ने एक और उदाहरण दिखाया जहां साथ विचरण कम हो रहा था , और LOOCV के लिए सबसे कम था। अब तक मैं वास्तव में किसी भी सिमुलेशन को देखने के लिए उत्सुक हूं, जहां सिलवटों की संख्या के साथ विचरण बढ़ेगा। मुझे भी संदेह होने लगा है कि यह व्यवहार में हो सकता है। कश्मीर
अमीबा का कहना है कि मोनिका

20

मेरी राय में, जब आप प्रशिक्षण डेटा का एक छोटा समूह रखते हैं, तो एक क्रॉस क्रॉस सत्यापन को छोड़ दें तो बेहतर है। इस मामले में, आप वास्तव में मॉडल को प्रशिक्षित करने के लिए अपने बाकी डेटा का उपयोग करने पर भविष्यवाणियां करने के लिए 10 तह नहीं बना सकते हैं।

यदि आपके पास दूसरी ओर बड़ी मात्रा में प्रशिक्षण डेटा है, तो 10-गुना क्रॉस सत्यापन एक बेहतर शर्त होगी, क्योंकि एक क्रॉस-सत्यापन को छोड़ने के लिए बहुत अधिक पुनरावृत्तियां होंगी, और इन परिणामों के बारे में विचार करके आपके हाइपरपैरमीटर को ट्यून किया जा सकता है। ऐसा अच्छा विचार नहीं है।

आईएसएल के अनुसार, हमेशा एक आउट और के फोल्ड क्रॉस सत्यापन करने के बीच एक पूर्वाग्रह-विचरण व्यापार-बंद है। LOOCV में (CV को छोड़ दें), आपको निम्न पूर्वाग्रह और उच्चतर विचरण के साथ परीक्षण त्रुटि का अनुमान मिलता है क्योंकि प्रत्येक प्रशिक्षण सेट में n-1 उदाहरण होते हैं, जिसका अर्थ है कि आप प्रत्येक पुनरावृत्ति में लगभग संपूर्ण प्रशिक्षण सेट का उपयोग कर रहे हैं। इससे उच्च विचरण भी होता है, क्योंकि प्रशिक्षण सेटों के बीच बहुत अधिक ओवरलैप होता है, और इस प्रकार परीक्षण त्रुटि अनुमान अत्यधिक सहसंबद्ध होते हैं, जिसका अर्थ है कि परीक्षण त्रुटि अनुमान के औसत मूल्य में उच्च विचरण होगा।

इसके विपरीत k- गुना CV के साथ सही है, क्योंकि प्रशिक्षण सेट के बीच अपेक्षाकृत कम ओवरलैप है, इस प्रकार परीक्षण त्रुटि अनुमान कम सहसंबद्ध हैं, जिसके परिणामस्वरूप माध्य परीक्षण त्रुटि मान में LOOCV के रूप में अधिक विचरण नहीं होगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.