एक मॉडल को ओवरफिट करने की समस्या को पार करने की प्रक्रिया क्यों पार करती है?
एक मॉडल को ओवरफिट करने की समस्या को पार करने की प्रक्रिया क्यों पार करती है?
जवाबों:
मैं फिलहाल पर्याप्त स्पष्ट स्पष्टीकरण के बारे में नहीं सोच सकता, इसलिए मैं इसे किसी और को छोड़ दूंगा; हालाँकि, क्रॉस-सत्यापन मॉडल चयन में ओवर-फिटिंग की समस्या को पूरी तरह से दूर नहीं करता है, यह इसे कम करता है। क्रॉस-सत्यापन त्रुटि में एक नगण्य विचरण नहीं है, खासकर अगर डेटासेट का आकार छोटा है; दूसरे शब्दों में, आपके द्वारा उपयोग किए जाने वाले डेटा के विशेष नमूने के आधार पर आपको थोड़ा अलग मूल्य मिलता है। इसका मतलब यह है कि यदि आपके पास मॉडल चयन में स्वतंत्रता की कई डिग्री हैं (उदाहरण के लिए बहुत सारी विशेषताएं, जिसमें से एक छोटे से उपसमुच्चय का चयन करें, कई हाइपर-मापदंडों को ट्यून करने के लिए, जिसमें से कई मॉडल चुनने के लिए) आप क्रॉस-सत्यापन मापदंड को ओवर-फिट कर सकते हैं जैसा कि मॉडल को उन तरीकों से ट्यून किया जाता है जो इस यादृच्छिक भिन्नता का फायदा उठाते हैं न कि उन तरीकों से जो वास्तव में प्रदर्शन में सुधार करते हैं, और आप खराब प्रदर्शन करने वाले मॉडल के साथ समाप्त हो सकते हैं। इसकी एक चर्चा के लिए, देखेंCawley और टैलबोट "मॉडल चयन में ओवर-फिटिंग और प्रदर्शन मूल्यांकन में बाद के चयन पूर्वाग्रह", JMLR, वॉल्यूम। 11, पीपी। 2079−2107, 2010
जब आपके पास एक छोटा डेटासेट होता है, तो दुख की बात यह है कि आपको क्रॉस-वेलिडेशन की सबसे अधिक संभावना है। ध्यान दें कि के-फोल्ड क्रॉस-वैलेडेशन आमतौर पर लीव-वन-आउट क्रॉस-वैलिडेशन की तुलना में अधिक विश्वसनीय होता है क्योंकि इसमें कम विचरण होता है, लेकिन कुछ मॉडलों के लिए गणना करना अधिक महंगा हो सकता है (यही वजह है कि LOOCV कभी-कभी मॉडल चयन के लिए उपयोग किया जाता है) भले ही इसका उच्च विचरण हो)।
मेरा जवाब कठोर से अधिक सहज है, लेकिन शायद यह मदद करेगा ...
जैसा कि मैं इसे समझता हूं, ओवरफिटिंग उसी डेटा का उपयोग करके प्रशिक्षण और परीक्षण के आधार पर मॉडल चयन का परिणाम है, जहां आपके पास एक लचीला फिटिंग तंत्र है: आप अपने डेटा के नमूने को इतनी बारीकी से फिट करते हैं कि आप शोर, आउटलेयर और सभी को फिट कर रहे हैं अन्य विचरण।
प्रशिक्षण और परीक्षण सेट में डेटा को विभाजित करना आपको ऐसा करने से रोकता है। लेकिन एक स्थिर विभाजन कुशलता से आपके डेटा का उपयोग नहीं कर रहा है और आपका विभाजन स्वयं एक मुद्दा हो सकता है। क्रॉस-वैलिडेशन प्रशिक्षण-परीक्षण विभाजन के सटीक-फिट-टू-फिट-टू-ट्रेनिंग-डेटा लाभ को बनाए रखता है, जबकि आपके पास जितना संभव हो उतना कुशलतापूर्वक डेटा का उपयोग करना (यानी आपके सभी डेटा का उपयोग किया जाता है) प्रशिक्षण और परीक्षण डेटा के रूप में, बस एक ही रन में नहीं)।
यदि आपके पास एक लचीला फिटिंग तंत्र है, तो आपको अपने मॉडल के चयन में बाधा डालने की आवश्यकता है ताकि यह "सही" का पक्ष न करे लेकिन जटिल किसी भी तरह से फिट बैठता है। आप इसे एआईसी, बीआईसी, या कुछ अन्य दंड विधि के साथ कर सकते हैं जो सीधे फिट जटिलता को दंडित करता है, या आप इसे सीवी के साथ कर सकते हैं। (या आप एक फिटिंग विधि का उपयोग करके ऐसा कर सकते हैं जो बहुत लचीला नहीं है, जो एक कारण है कि रैखिक मॉडल अच्छे हैं।)
इसे देखने का एक और तरीका यह है कि सीखना सामान्यीकरण के बारे में है, और एक फिट जो बहुत तंग है, कुछ अर्थों में सामान्यीकरण नहीं है। आप जो सीखते हैं और जिस चीज पर आपकी परीक्षा होती है, उसे अलग करके, आप सामान्य से बेहतर करते हैं यदि आपने केवल प्रश्नों के विशिष्ट सेट के उत्तर सीखे हैं।
एक बायेसियन परिप्रेक्ष्य से, मुझे इतना यकीन नहीं है कि क्रॉस सत्यापन कुछ भी करता है जो "उचित" बायेसियन विश्लेषण मॉडल की तुलना करने के लिए नहीं करता है। लेकिन मैं 100% निश्चित नहीं हूं कि यह होता है।
जिसे पूर्ववर्ती वितरण कहा जाता है । यह मूल रूप से कहता है कि मॉडल ने वास्तव में देखे जाने वाले डेटा की कितनी अच्छी भविष्यवाणी की थी, जो वास्तव में क्रॉस सत्यापन करता है, "पूर्व" को "प्रशिक्षण" मॉडल द्वारा प्रतिस्थापित किया जा रहा है, और "डेटा" को "परीक्षण" द्वारा प्रतिस्थापित किया जा रहा है डेटा। इसलिए यदि मॉडल B ने मॉडल A की तुलना में डेटा की बेहतर भविष्यवाणी की है, तो इसकी उत्तरोत्तर संभावना मॉडल A के सापेक्ष बढ़ जाती है। इससे ऐसा लगता है कि बेयस प्रमेय वास्तव में एक सबसेट के बजाय सभी डेटा का उपयोग करके क्रॉस वेलिडेशन करेगा। हालाँकि, मैं इस बारे में पूरी तरह आश्वस्त नहीं हूँ - ऐसा लगता है जैसे हमें कुछ नहीं के लिए कुछ मिलता है।
इस पद्धति की एक और साफ-सुथरी विशेषता यह है कि इसमें प्रत्येक मॉडल के लिए पूर्व वितरण के सामान्यीकरण स्थिरांक के अनुपात द्वारा निर्मित "ओटामस रेजर" है।
हालाँकि, क्रॉस वेरिएशन खतरनाक पुराने "कुछ और" या जिसे कभी-कभी "मॉडल मिसकैरेज" कहा जाता है, के लिए मूल्यवान लगता है। मैं लगातार इस बात से फटा हुआ हूं कि यह "कुछ और" मायने रखता है या नहीं, क्योंकि ऐसा लगता है जैसे यह मामला होना चाहिए - लेकिन यह आपको बिना किसी समाधान के पंगु बना देता है जब यह स्पष्ट रूप से मायने रखता है। बस आपको सिरदर्द देने के लिए कुछ है, लेकिन आप इसके बारे में कुछ नहीं कर सकते हैं - सिवाय इसके कि "कुछ और" क्या हो सकता है, और इसे अपने मॉडल में आज़माने के लिए (ताकि यह "कुछ और" का हिस्सा न हो) ।
और आगे, क्रॉस सत्यापन वास्तव में एक बायेसियन विश्लेषण करने का एक तरीका है जब ऊपर दिए गए इंटीग्रल्स हास्यास्पद रूप से कठिन हैं। और क्रॉस सत्यापन "किसी के बारे में" समझ में आता है - यह "गणितीय" के बजाय "यांत्रिक" है। इसलिए यह समझना आसान है कि क्या चल रहा है। और यह आपके सिर को मॉडल के महत्वपूर्ण भाग पर ध्यान केंद्रित करने के लिए भी लगता है - अच्छी भविष्यवाणी करना।