मैं क्रॉस-वैलिडेशन के बजाय डेटा के सीमांत लिलिहुड को अधिकतम करके कई एआरडी कर्नेल के साथ गॉसियन प्रक्रिया का प्रशिक्षण दे रहा हूं।
मुझे संदेह है कि यह अति-फिटिंग है। मैं इस संदेह को बायेसियन संदर्भ में कैसे परख सकता हूं?
मैं क्रॉस-वैलिडेशन के बजाय डेटा के सीमांत लिलिहुड को अधिकतम करके कई एआरडी कर्नेल के साथ गॉसियन प्रक्रिया का प्रशिक्षण दे रहा हूं।
मुझे संदेह है कि यह अति-फिटिंग है। मैं इस संदेह को बायेसियन संदर्भ में कैसे परख सकता हूं?
जवाबों:
गैर-एआरडी समकक्ष सहसंयोजक फ़ंक्शन (आमतौर पर आरबीएफ) के साथ एक गाऊसी प्रक्रिया को फिट करने और परीक्षण त्रुटि दरों की तुलना करने के लिए सबसे सरल बात होगी। कई समस्याओं के लिए एक एआरडी सहसंयोजक समारोह एक गैर-एआरडी सहसंयोजक समारोह की तुलना में खराब प्रदर्शन करता है क्योंकि अति-मापदंडों को ट्यूनिंग करने में अति-फिटिंग होती है। जैसा कि आरबीएफ सहसंयोजक एआरडी सहसंयोजक का एक विशेष मामला है, यदि आरबीएफ बेहतर प्रदर्शन करता है, तो यह एक मजबूत संकेत है कि एआरडी कर्नेल अति-फिटिंग है (आरडीएफ सहसंयोजक के लिए इष्टतम मूल्यों पर एआरडी गुणांक को अनुकूलित करना शुरू करें, यह है) तेजी से, और यह भी सुनिश्चित करने में मदद करता है कि एआरडी सहसंयोजक के साथ समस्या सिर्फ सीमांत संभावना में स्थानीय मिनीमा के कारण नहीं है)। आम तौर पर सराहना की तुलना में यह एक बहुत बड़ी समस्या है।
मैंने इस पर कुछ पत्र लिखे हैं:
GC Cawley और NLC टैलबोट, मॉडल चयन के दौरान अति-फिटिंग को रोकना, बायोसियन नियमितिकरण के माध्यम से हाइपर-मापदंडों के जर्नल, मशीन लर्निंग रिसर्च, वॉल्यूम 8, पेज 841-861, अप्रैल 2007 ( पीडीएफ )
तथा
GC Cawley और NLC टैलबोट, मॉडल चयन में ओवर-फिटिंग और प्रदर्शन मूल्यांकन में बाद के चयन पूर्वाग्रह, जर्नल ऑफ मशीन लर्निंग रिसर्च, 2010। रिसर्च, वॉल्यूम। 11, पीपी। 2079-2107, जुलाई 2010 ( पीडीएफ )
पहले GPs के साथ कुछ प्रयोग शामिल हैं, जो बताते हैं कि मॉडल चयन में ओवर-फिटिंग भी सीमांत संभावना आधारित मॉडल चयन के साथ GPs के लिए एक समस्या है।
सीमांत संभावना के अनुकूलन की प्रक्रिया में प्रत्येक चरण में जीपी की परीक्षण त्रुटि का मूल्यांकन करने के लिए एक अधिक गहन विश्लेषण होगा। यह अत्यधिक संभावना है कि आपको ओवर-फिटिंग का क्लासिक हॉल मार्क मिलेगा, जहां मॉडल चयन मानदंड नीरस रूप से कम हो रहा है, लेकिन परीक्षण त्रुटि शुरू में कम हो जाती है, लेकिन तब फिर से बढ़ना शुरू होता है क्योंकि मॉडल चयन मानदंड अति-अनुकूलित (सीएफ) है 2010 जेएमएलआर पेपर में चित्रा 2 ए)।