कैसे पता लगा सकते हैं कि क्या एक गाऊसी प्रक्रिया ओवर-फिटिंग है?


12

मैं क्रॉस-वैलिडेशन के बजाय डेटा के सीमांत लिलिहुड को अधिकतम करके कई एआरडी कर्नेल के साथ गॉसियन प्रक्रिया का प्रशिक्षण दे रहा हूं।

मुझे संदेह है कि यह अति-फिटिंग है। मैं इस संदेह को बायेसियन संदर्भ में कैसे परख सकता हूं?

जवाबों:


12

गैर-एआरडी समकक्ष सहसंयोजक फ़ंक्शन (आमतौर पर आरबीएफ) के साथ एक गाऊसी प्रक्रिया को फिट करने और परीक्षण त्रुटि दरों की तुलना करने के लिए सबसे सरल बात होगी। कई समस्याओं के लिए एक एआरडी सहसंयोजक समारोह एक गैर-एआरडी सहसंयोजक समारोह की तुलना में खराब प्रदर्शन करता है क्योंकि अति-मापदंडों को ट्यूनिंग करने में अति-फिटिंग होती है। जैसा कि आरबीएफ सहसंयोजक एआरडी सहसंयोजक का एक विशेष मामला है, यदि आरबीएफ बेहतर प्रदर्शन करता है, तो यह एक मजबूत संकेत है कि एआरडी कर्नेल अति-फिटिंग है (आरडीएफ सहसंयोजक के लिए इष्टतम मूल्यों पर एआरडी गुणांक को अनुकूलित करना शुरू करें, यह है) तेजी से, और यह भी सुनिश्चित करने में मदद करता है कि एआरडी सहसंयोजक के साथ समस्या सिर्फ सीमांत संभावना में स्थानीय मिनीमा के कारण नहीं है)। आम तौर पर सराहना की तुलना में यह एक बहुत बड़ी समस्या है।

मैंने इस पर कुछ पत्र लिखे हैं:

GC Cawley और NLC टैलबोट, मॉडल चयन के दौरान अति-फिटिंग को रोकना, बायोसियन नियमितिकरण के माध्यम से हाइपर-मापदंडों के जर्नल, मशीन लर्निंग रिसर्च, वॉल्यूम 8, पेज 841-861, अप्रैल 2007 ( पीडीएफ )

तथा

GC Cawley और NLC टैलबोट, मॉडल चयन में ओवर-फिटिंग और प्रदर्शन मूल्यांकन में बाद के चयन पूर्वाग्रह, जर्नल ऑफ मशीन लर्निंग रिसर्च, 2010। रिसर्च, वॉल्यूम। 11, पीपी। 2079-2107, जुलाई 2010 ( पीडीएफ )

पहले GPs के साथ कुछ प्रयोग शामिल हैं, जो बताते हैं कि मॉडल चयन में ओवर-फिटिंग भी सीमांत संभावना आधारित मॉडल चयन के साथ GPs के लिए एक समस्या है।

सीमांत संभावना के अनुकूलन की प्रक्रिया में प्रत्येक चरण में जीपी की परीक्षण त्रुटि का मूल्यांकन करने के लिए एक अधिक गहन विश्लेषण होगा। यह अत्यधिक संभावना है कि आपको ओवर-फिटिंग का क्लासिक हॉल मार्क मिलेगा, जहां मॉडल चयन मानदंड नीरस रूप से कम हो रहा है, लेकिन परीक्षण त्रुटि शुरू में कम हो जाती है, लेकिन तब फिर से बढ़ना शुरू होता है क्योंकि मॉडल चयन मानदंड अति-अनुकूलित (सीएफ) है 2010 जेएमएलआर पेपर में चित्रा 2 ए)।


शांत धन्यवाद - मैं अब पहले एक के माध्यम से पढ़ रहा हूं। क्या आप एआरडी जैसे कई मापदंडों के साथ फिर से फिटिंग के साथ फिर से फिटिंग करने के लिए अधिक प्रभावी तरीके से आए हैं यदि सीमांत संभावना में मॉडल जटिलता शब्द ओवरफिटिंग को रोकने के लिए पर्याप्त नहीं है?
निकलपैन

2
मुझे संदेह है कि मार्कोव चेन मोंटे कार्लो विधियों का उपयोग करके हाइपर-मापदंडों पर हाशिए पर जाने के लिए सबसे मजबूत चीज होगी। डेटासेट के आकार के लिए जो GPs (कुछ हज़ार पैटर्न तक) के लिए उपयोग किया जाता है, मुझे संदेह है कि सीमांत संभावना की ओवर-फिटिंग सभी लेकिन अपरिहार्य है। IMHO अनुकूलन आंकड़ों की सभी बुराई का मूल है, जब भी आप किसी भी चीज का अनुकूलन करते हैं, तो आप ओवर-फिटिंग के जोखिम को चलाते हैं। बाइसेनियन दृष्टिकोण इस अर्थ में बहुत बेहतर है, लेकिन आप इसके बजाय कठिनाइयों का जोखिम उठाते हैं क्योंकि
पादरी

@DikranMarsupial वेरिएशन जीपी विधियों का उपयोग करने से बचने के तरीके पर कोई नवीनतम शोध है?
imsrgadich
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.