क्या क्रॉस-वैरिफिकेशन ओवरफिटिंग को रोकने के लिए पर्याप्त है?


17

यदि मेरे पास कोई डेटा है, और मैं क्रॉस सत्यापन के साथ एक वर्गीकरण (इस डेटा पर यादृच्छिक जंगल कहता हूं) (चलो 5-सिलवटों को कहते हैं) चलाते हैं, तो क्या मैं यह निष्कर्ष निकाल सकता हूं कि मेरी विधि में कोई फिटिंग नहीं है?

जवाबों:


20

हर्गिज नहीं। हालाँकि, क्रॉस सत्यापन आपको यह आकलन करने में मदद करता है कि आपका तरीका कितना अधिक है।

उदाहरण के लिए, यदि आपके प्रशिक्षण डेटा का प्रतिगमन R-squared 0.50 है और क्रॉस-रेवेटेड आर-वर्ग 0.48 है, तो आपके पास शायद ही कोई ओवरफिटिंग हो और आपको अच्छा महसूस हो। दूसरी ओर, यदि क्रॉस-रेवेटेड आर-स्क्वेर्ड यहां केवल 0.3 है, तो आपके मॉडल के प्रदर्शन का एक बड़ा हिस्सा ओवरफिटिंग के कारण आता है न कि सच्चे रिश्तों से। ऐसे मामले में आप या तो कम प्रदर्शन को स्वीकार कर सकते हैं या कम ओवरफिटिंग के साथ विभिन्न मॉडलिंग रणनीतियों की कोशिश कर सकते हैं।


8
मुझे लगता है कि यह उत्तर आत्मा में सही है, लेकिन मैं दूसरे पैराग्राफ में ओवर फिटिंग के लक्षण वर्णन से असहमत हूं। मुझे विश्वास नहीं है कि ट्रेन की त्रुटि होने पर ओवर-फिटिंग होती है - परीक्षण त्रुटि> कुछ बाध्य, इसके बजाय, मैं फिटिंग पर एक ऐसी स्थिति के रूप में दिखाऊंगा, जहां मॉडल की जटिलता को थोड़ा बढ़ाकर होल्ड आउट त्रुटि को बढ़ाता है। आवश्यक है कि आपकी ट्रेन और परीक्षण त्रुटियां तुलनीय हैं, अक्सर बहुत कम मॉडल में परिणाम होगा ।
मैथ्यू पारा

7

क्रॉस-वैलिडेशन एक अच्छा, लेकिन सही नहीं है, ओवर-फिटिंग को कम करने की तकनीक है।

क्रॉस-वैलिडेशन बाहरी डेटा के लिए अच्छा प्रदर्शन नहीं करेगा यदि आपके पास जो डेटा है वह उस डेटा का प्रतिनिधि नहीं है जिसे आप भविष्यवाणी करने की कोशिश कर रहे हैं!

यहां दो ठोस परिस्थितियां हैं जब क्रॉस-वैलिडेशन में खामियां हैं:

  • आप भविष्य का अनुमान लगाने के लिए अतीत का उपयोग कर रहे हैं: यह मानने के लिए अक्सर एक बड़ी धारणा होती है कि अतीत के अवलोकन भविष्य की टिप्पणियों के समान वितरण के साथ एक ही आबादी से आएंगे। अतीत से तैयार किए गए डेटा सेट पर क्रॉस-वैरिफाई करना इस से बचाव नहीं करेगा।
  • आपके द्वारा एकत्र किए गए डेटा में एक पूर्वाग्रह है: आपके द्वारा देखा गया डेटा आपके द्वारा देखे गए डेटा से व्यवस्थित रूप से भिन्न है। उदाहरण के लिए, हम उन लोगों के बारे में प्रतिक्रियाशील पूर्वाग्रह के बारे में जानते हैं जिन्होंने एक सर्वेक्षण लेने के लिए चुना।

3
आपके डेटासेट के सही जनसंख्या का खराब प्रतिनिधित्व नहीं होने के कारण आमतौर पर ओवर फिटिंग का एक अलग मुद्दा माना जाता है। बेशक, यह सही है कि क्रॉस-मान्यता उन्हें संबोधित नहीं करती है।
क्लिफ एबी

2

इसके अलावा, मैं स्टैनफोर्ड कोर्स से इन वीडियो को सांख्यिकीय शिक्षा में शामिल कर सकता हूं। ये वीडियो काफी गहराई में जाते हैं कि प्रभावी ढंग से क्रॉस-वैल्यूएशन का उपयोग कैसे करें

क्रॉस-वैलिडेशन और बूटस्ट्रैप (14:01)

K- गुना क्रॉस-वैलिडेशन (13:33)

क्रॉस-मान्यता: सही और गलत तरीके (10:07)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.