क्रॉस-वैलिडेशन ओवरफिटिंग की समस्या को कैसे दूर करता है?


34

एक मॉडल को ओवरफिट करने की समस्या को पार करने की प्रक्रिया क्यों पार करती है?


4
एलेन सेलिस के कार्यों को देखें । उनका काम जहां तक ​​मैंने पढ़ा है (बहुत कम अफसोस) पार-मान्यता के गुणों के बारे में है।
mpiktas

@mpiktas वास्तव में, और उसका एक पेपर पहले से ही CVJC, mendeley.com/groups/999241/crossvalidated-journal-club/papers के लिए प्रस्तावित था ।
CHL

जवाबों:


23

मैं फिलहाल पर्याप्त स्पष्ट स्पष्टीकरण के बारे में नहीं सोच सकता, इसलिए मैं इसे किसी और को छोड़ दूंगा; हालाँकि, क्रॉस-सत्यापन मॉडल चयन में ओवर-फिटिंग की समस्या को पूरी तरह से दूर नहीं करता है, यह इसे कम करता है। क्रॉस-सत्यापन त्रुटि में एक नगण्य विचरण नहीं है, खासकर अगर डेटासेट का आकार छोटा है; दूसरे शब्दों में, आपके द्वारा उपयोग किए जाने वाले डेटा के विशेष नमूने के आधार पर आपको थोड़ा अलग मूल्य मिलता है। इसका मतलब यह है कि यदि आपके पास मॉडल चयन में स्वतंत्रता की कई डिग्री हैं (उदाहरण के लिए बहुत सारी विशेषताएं, जिसमें से एक छोटे से उपसमुच्चय का चयन करें, कई हाइपर-मापदंडों को ट्यून करने के लिए, जिसमें से कई मॉडल चुनने के लिए) आप क्रॉस-सत्यापन मापदंड को ओवर-फिट कर सकते हैं जैसा कि मॉडल को उन तरीकों से ट्यून किया जाता है जो इस यादृच्छिक भिन्नता का फायदा उठाते हैं न कि उन तरीकों से जो वास्तव में प्रदर्शन में सुधार करते हैं, और आप खराब प्रदर्शन करने वाले मॉडल के साथ समाप्त हो सकते हैं। इसकी एक चर्चा के लिए, देखेंCawley और टैलबोट "मॉडल चयन में ओवर-फिटिंग और प्रदर्शन मूल्यांकन में बाद के चयन पूर्वाग्रह", JMLR, वॉल्यूम। 11, पीपी। 2079−2107, 2010

जब आपके पास एक छोटा डेटासेट होता है, तो दुख की बात यह है कि आपको क्रॉस-वेलिडेशन की सबसे अधिक संभावना है। ध्यान दें कि के-फोल्ड क्रॉस-वैलेडेशन आमतौर पर लीव-वन-आउट क्रॉस-वैलिडेशन की तुलना में अधिक विश्वसनीय होता है क्योंकि इसमें कम विचरण होता है, लेकिन कुछ मॉडलों के लिए गणना करना अधिक महंगा हो सकता है (यही वजह है कि LOOCV कभी-कभी मॉडल चयन के लिए उपयोग किया जाता है) भले ही इसका उच्च विचरण हो)।


1
एक विचार मुझे लगा है कि क्रॉस सत्यापन केवल डेटा के लिए एक अलग (अंतर्निहित) मॉडल लागू कर रहा है। आप इसे निश्चित रूप से सीवी के "चचेरे भाई" के साथ दिखा सकते हैं, गैर-पैरामीट्रिक बूटस्ट्रैप (जो 0 के एकाग्रता पैरामीटर के साथ एक डरिचलेट प्रक्रिया मॉडल पर आधारित है)।
probabilityislogic

दिलचस्प विचार। मेरा विचार है कि (जिन मॉडलों में मेरी दिलचस्पी है) मापदंडों और हाइपर-मापदंडों में अलगाव तार्किक के बजाय कम्प्यूटेशनल है; हाइपर-पैरामीटर्स अभी भी ऐसे पैरामीटर हैं जिन्हें डेटा में फिट किए जाने की आवश्यकता है, और यह कि क्रॉस-वैलिडेशन का उपयोग करके अप्रत्यक्ष रूप से ऐसा करना वास्तव में ऐसा नहीं है। पिछले पेपर में, मैंने ट्यूनिंग की जांच की कि सामान्य रूप से प्रशिक्षण मापदंड का उपयोग करके कर्नेल मॉडल के हाइपर-पैरामीटर क्या हैं और मॉडल चयन मानदंड (एलओओसीवी) से बचने से बचने के लिए एक अतिरिक्त नियमितीकरण शब्द जोड़ रहा है और यह काफी अच्छी तरह से काम करता है।
डिक्रान मार्सुपियल

1
के-फोल्ड सीवी छुट्टी-एक-आउट की तुलना में अधिक महंगा क्यों है? मेरा अनुभव (और मेरा अंतर्ज्ञान) अन्यथा कहता है। चूंकि k-fold CV में हम k परीक्षण कर रहे हैं, L1O में, जहाँ भी हम N (>> k) परीक्षण कर रहे हैं, और आमतौर पर प्रशिक्षण का हिस्सा कुछ मैट्रिक्स व्युत्क्रम के कारण अधिक समय लेता है, तो क्या L1O महंगा विकल्प नहीं है?
१०:३०

1
मॉडल की एक विस्तृत श्रृंखला (जैसे रैखिक प्रतिगमन) के लिए बहुत कम अतिरिक्त लागत पर, संपूर्ण डेटासेट को मॉडल फिटिंग के उप-उत्पाद के रूप में छोड़ दिया जा सकता है (या अनुमानित)। मैं इसका उत्तर स्पष्ट करने के लिए संपादित करूंगा।
डिक्रान मार्सुपियल

लीव-वन-आउट के बारे में मेरी समझ यह है कि यह के-फोल्ड सीवी है - के-फोल्ड सीवी का सबसे अच्छा लेकिन सबसे कम्प्यूटेशनल रूप से महंगा, जहां के = डेटासेट का आकार है।
डैनियल विंटरस्टीन

10

मेरा जवाब कठोर से अधिक सहज है, लेकिन शायद यह मदद करेगा ...

जैसा कि मैं इसे समझता हूं, ओवरफिटिंग उसी डेटा का उपयोग करके प्रशिक्षण और परीक्षण के आधार पर मॉडल चयन का परिणाम है, जहां आपके पास एक लचीला फिटिंग तंत्र है: आप अपने डेटा के नमूने को इतनी बारीकी से फिट करते हैं कि आप शोर, आउटलेयर और सभी को फिट कर रहे हैं अन्य विचरण।

प्रशिक्षण और परीक्षण सेट में डेटा को विभाजित करना आपको ऐसा करने से रोकता है। लेकिन एक स्थिर विभाजन कुशलता से आपके डेटा का उपयोग नहीं कर रहा है और आपका विभाजन स्वयं एक मुद्दा हो सकता है। क्रॉस-वैलिडेशन प्रशिक्षण-परीक्षण विभाजन के सटीक-फिट-टू-फिट-टू-ट्रेनिंग-डेटा लाभ को बनाए रखता है, जबकि आपके पास जितना संभव हो उतना कुशलतापूर्वक डेटा का उपयोग करना (यानी आपके सभी डेटा का उपयोग किया जाता है) प्रशिक्षण और परीक्षण डेटा के रूप में, बस एक ही रन में नहीं)।

यदि आपके पास एक लचीला फिटिंग तंत्र है, तो आपको अपने मॉडल के चयन में बाधा डालने की आवश्यकता है ताकि यह "सही" का पक्ष न करे लेकिन जटिल किसी भी तरह से फिट बैठता है। आप इसे एआईसी, बीआईसी, या कुछ अन्य दंड विधि के साथ कर सकते हैं जो सीधे फिट जटिलता को दंडित करता है, या आप इसे सीवी के साथ कर सकते हैं। (या आप एक फिटिंग विधि का उपयोग करके ऐसा कर सकते हैं जो बहुत लचीला नहीं है, जो एक कारण है कि रैखिक मॉडल अच्छे हैं।)

इसे देखने का एक और तरीका यह है कि सीखना सामान्यीकरण के बारे में है, और एक फिट जो बहुत तंग है, कुछ अर्थों में सामान्यीकरण नहीं है। आप जो सीखते हैं और जिस चीज पर आपकी परीक्षा होती है, उसे अलग करके, आप सामान्य से बेहतर करते हैं यदि आपने केवल प्रश्नों के विशिष्ट सेट के उत्तर सीखे हैं।


3

एक बायेसियन परिप्रेक्ष्य से, मुझे इतना यकीन नहीं है कि क्रॉस सत्यापन कुछ भी करता है जो "उचित" बायेसियन विश्लेषण मॉडल की तुलना करने के लिए नहीं करता है। लेकिन मैं 100% निश्चित नहीं हूं कि यह होता है।

MAMBDI

P(MA|D,I)P(MB|D,I)=P(MA|I)P(MB|I)×P(D|MA,I)P(D|MB,I)

P(D|MA,I)

P(D|MA,I)=P(D,θA|MA,I)dθA=P(θA|MA,I)P(D|MA,θA,I)dθA

जिसे पूर्ववर्ती वितरण कहा जाता है । यह मूल रूप से कहता है कि मॉडल ने वास्तव में देखे जाने वाले डेटा की कितनी अच्छी भविष्यवाणी की थी, जो वास्तव में क्रॉस सत्यापन करता है, "पूर्व" को "प्रशिक्षण" मॉडल द्वारा प्रतिस्थापित किया जा रहा है, और "डेटा" को "परीक्षण" द्वारा प्रतिस्थापित किया जा रहा है डेटा। इसलिए यदि मॉडल B ने मॉडल A की तुलना में डेटा की बेहतर भविष्यवाणी की है, तो इसकी उत्तरोत्तर संभावना मॉडल A के सापेक्ष बढ़ जाती है। इससे ऐसा लगता है कि बेयस प्रमेय वास्तव में एक सबसेट के बजाय सभी डेटा का उपयोग करके क्रॉस वेलिडेशन करेगा। हालाँकि, मैं इस बारे में पूरी तरह आश्वस्त नहीं हूँ - ऐसा लगता है जैसे हमें कुछ नहीं के लिए कुछ मिलता है।

इस पद्धति की एक और साफ-सुथरी विशेषता यह है कि इसमें प्रत्येक मॉडल के लिए पूर्व वितरण के सामान्यीकरण स्थिरांक के अनुपात द्वारा निर्मित "ओटामस रेजर" है।

हालाँकि, क्रॉस वेरिएशन खतरनाक पुराने "कुछ और" या जिसे कभी-कभी "मॉडल मिसकैरेज" कहा जाता है, के लिए मूल्यवान लगता है। मैं लगातार इस बात से फटा हुआ हूं कि यह "कुछ और" मायने रखता है या नहीं, क्योंकि ऐसा लगता है जैसे यह मामला होना चाहिए - लेकिन यह आपको बिना किसी समाधान के पंगु बना देता है जब यह स्पष्ट रूप से मायने रखता है। बस आपको सिरदर्द देने के लिए कुछ है, लेकिन आप इसके बारे में कुछ नहीं कर सकते हैं - सिवाय इसके कि "कुछ और" क्या हो सकता है, और इसे अपने मॉडल में आज़माने के लिए (ताकि यह "कुछ और" का हिस्सा न हो) ।

और आगे, क्रॉस सत्यापन वास्तव में एक बायेसियन विश्लेषण करने का एक तरीका है जब ऊपर दिए गए इंटीग्रल्स हास्यास्पद रूप से कठिन हैं। और क्रॉस सत्यापन "किसी के बारे में" समझ में आता है - यह "गणितीय" के बजाय "यांत्रिक" है। इसलिए यह समझना आसान है कि क्या चल रहा है। और यह आपके सिर को मॉडल के महत्वपूर्ण भाग पर ध्यान केंद्रित करने के लिए भी लगता है - अच्छी भविष्यवाणी करना।


2
मॉडल गलत निर्धारण समस्या प्रमुख है। बेयसियन तरीके (विशेष रूप से "गरीब-आदमी" सबूत अधिकतमकरण की बेयर्स) मॉडल प्रक्षेपन के तहत बहुत खराब प्रदर्शन कर सकते हैं, जबकि क्रॉस-मान्यता लगभग हर समय बहुत अच्छी तरह से काम करती है। जब धारणाएं (पुजारी) "सही" होती हैं, तो आम तौर पर "गलत" होने पर दंड की तुलना में बहुत छोटा होता है, इसलिए क्रॉस-मान्यता औसत पर जीतती है (क्योंकि यह लगभग कोई धारणा नहीं बनाता है)। हालांकि यह लगभग बौद्धिक रूप से संतोषजनक नहीं है! ; ओ)
डिक्रान मार्सुपियल

1
@dikran - दिलचस्प। मुझे यकीन नहीं है कि मैं इससे सहमत हूँ कि आप क्या कहते हैं। तो आप कहते हैं कि यदि मॉडल गलत है, तो बेइस प्रमेय का उपयोग करने की तुलना में उसी मॉडल के साथ क्रॉस सत्यापन बेहतर है? मैं इसका एक उदाहरण देखना चाहूंगा।
प्रोबेबिलिसलॉजिक

@probabiltyislogic मुझे नहीं लगता कि यह एक विशेष रूप से नया अवलोकन है, रासमुसेन और विलियम्स ने अपनी उत्कृष्ट गाऊसी प्रक्रिया पुस्तक के पृष्ठ 118 पर इसका उल्लेख किया है (हालांकि यह अनिवार्य रूप से ग्रेस वाबा के मोनाोग्राफ पर इसी तरह की टिप्पणी का एक संदर्भ है)। मूल रूप से सीमान्त संभावना मॉडल की मान्यताओं को देखते हुए डेटा की संभावना है, जबकि XVAL संभावना मॉडल की धारणाओं की परवाह किए बिना डेटा की संभावना का अनुमान है, इसलिए मान्यताओं के मान्य नहीं होने पर अधिक विश्वसनीय है। एक उचित अनुभवजन्य अध्ययन उपयोगी होगा।
डिक्रान मार्सुपियल

@probabilityislogic मुझे यह जोड़ना चाहिए कि मुझे मॉडल चयन के लिए बायेसियन दृष्टिकोण पसंद है, लेकिन मैंने लगभग हमेशा अभ्यास में क्रॉस-मान्यता का उपयोग किया, क्योंकि यह आमतौर पर परिणाम देता है (जैसे कि सांख्यिकीय रूप से) बायसेनियन दृष्टिकोण से बेहतर या बेहतर है।
डिक्रान मार्सुपियल

एक्समैंyमैंएक्समैंपी(yमैं|एक्समैं,θy)पी(एक्समैं|θएक्स)। दूसरे कार्यकाल की संभावना के लिए बहुत बड़ा योगदान है, इसलिए यदि कोई मॉडल वहाँ अच्छा करता है और भविष्यवाणी पर इसे काटता है तो सीमांत संभावना परवाह नहीं करेगी।
जेएमएस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.