ट्रेन बनाम टेस्ट त्रुटि गैप और इसके संबंध को ओवरफिट करने के लिए: परस्पर विरोधी सलाह को पुनः प्राप्त करना


14

ट्रेन बनाम टेस्ट त्रुटि की तुलना करने के तरीके के बारे में वहाँ परस्पर विरोधी सलाह दी जा रही है, विशेषकर तब जब दोनों के बीच अंतर हो। मुझे लगता है कि संघर्ष के लिए विचार के दो स्कूल प्रतीत होते हैं। मैं समझने की कोशिश कर रहा हूं कि दोनों को कैसे मिलाया जाए (या समझें कि मैं यहां क्या याद कर रहा हूं)।

विचार # 1: अकेले ट्रेन और टेस्ट सेट के प्रदर्शन के बीच का अंतर ओवरफिटिंग को इंगित नहीं करता है

सबसे पहले, (यहां भी चर्चा की गई: प्रशिक्षण और परीक्षण त्रुटि की तुलना ओवरफिटिंग का संकेत कैसे हो सकती है? ), यह विचार कि ट्रेन और टेस्ट सेट के बीच का अंतर अकेले ओवरफिटिंग का संकेत नहीं दे सकता है। यह मेरे व्यावहारिक अनुभव से सहमत है, उदाहरण के लिए, पेड़ के तरीकों को इकट्ठा करता है, जहां क्रॉस-मान्यता आधारित हाइपर पैरामीटर ट्यूनिंग के बाद भी, ट्रेन और परीक्षण त्रुटि के बीच का अंतर कुछ बड़ा रह सकता है। लेकिन (मॉडल प्रकार की परवाह किए बिना) जब तक आप सत्यापन त्रुटि वापस नहीं जा रहे हैं, तब तक आप अच्छे हैं। कम से कम, यही सोच है।

विचार # 2: जब आप ट्रेन और परीक्षण प्रदर्शन के बीच अंतर देखते हैं: ऐसी चीजें करें जो ओवरफिटिंग का सामना करती हैं

हालाँकि, फिर सलाह है कि आप बहुत अच्छे स्रोतों से देखते हैं, जो सुझाव देते हैं कि ट्रेन और परीक्षण त्रुटि के बीच का अंतर ओवरफिटिंग का संकेत है। यहाँ एक उदाहरण है: एंड्रयू एनजी (एक शानदार बात) द्वारा "नट्स एंड बोल्ट्स ऑफ़ डीप लर्निंग" की चर्चा https://www.youtube.com/watch?v=F1ka6a13S9I जहां समय पर 48 स्टैम्प पर उसने एक फ्लो चार्ट बनाया यह कहता है कि "यदि आपकी ट्रेन सेट की त्रुटि कम है और आपकी ट्रेन-डी सेट की त्रुटि अधिक है, तो आपको नियमितीकरण जोड़ना चाहिए, अधिक डेटा प्राप्त करना चाहिए या मॉडल आर्किटेक्चर को बदलना चाहिए" ... ये सभी क्रियाएं हैं जिन्हें आप ओवरफिटिंग से निपटने के लिए कर सकते हैं।

जो मुझे लाता है ... : क्या मुझे यहाँ कुछ याद आ रहा है? क्या यह अंगूठे का एक मॉडल विशिष्ट नियम है (आमतौर पर सरल मॉडल ट्रेन और परीक्षण के बीच कम अंतर होता है)? या विचार के दो अलग-अलग स्कूल हैं?

जवाबों:


4

मुझे नहीं लगता कि यह परस्पर विरोधी सलाह है। क्या हम वास्तव में रुचि रखते हैं, अच्छा आउट-ऑफ-सैंपल प्रदर्शन है, प्रशिक्षण और परीक्षण सेट प्रदर्शन के बीच की खाई को कम करने में नहीं। यदि परीक्षण सेट प्रदर्शन आउट-ऑफ-सैंपल प्रदर्शन का प्रतिनिधि है (यानी परीक्षण सेट काफी बड़ा है, अनियंत्रित है और हमारे मॉडल पर लागू होने वाले डेटा का प्रतिनिधि नमूना है), तो जब तक हम अपने प्रदर्शन पर अच्छा प्रदर्शन प्राप्त करते हैं परीक्षण सेट हम अंतर के बावजूद ओवरफिट नहीं कर रहे हैं।

अक्सर, हालांकि, अगर एक बड़ा अंतर है, तो यह संकेत दे सकता है कि हम मॉडल के लिए अधिक पूर्वाग्रह / परिचय के साथ बेहतर परीक्षण सेट प्रदर्शन प्राप्त कर सकते हैं। लेकिन इसका मतलब यह नहीं है कि एक छोटे अंतर का मतलब एक बेहतर मॉडल है; यह सिर्फ इतना है कि यदि हमारे पास प्रशिक्षण और परीक्षण सेट प्रदर्शन के बीच कोई छोटा या कोई अंतर नहीं है, तो हम जानते हैं कि हम निश्चित रूप से ओवरफिट नहीं कर रहे हैं, इसलिए नियमितीकरण / मॉडल में अधिक पूर्वाग्रह जोड़ने से मदद नहीं मिलेगी।


दिलचस्प बिंदु। संक्षेप में "ट्रेन और परीक्षण के बीच कोई अंतर नहीं" का अर्थ है निश्चित रूप से कोई ओवरफिटिंग नहीं है, लेकिन "ट्रेन और परीक्षण के बीच कुछ अंतर" ओवरफिटिंग का मतलब हो सकता है या नहीं भी हो सकता है। यदि हम उस तर्क से जाते हैं, तो एंड्रयू एनजी की बात में फ्लोचार्ट थोड़ा भ्रामक लगता है: यह स्लैम डंक के रूप में नहीं है क्योंकि स्लाइड से पता चलता है कि यदि आपके पास कोई अंतर है, तो आप नियमितीकरण की कोशिश कर सकते हैं या अधिक डेटा प्राप्त कर सकते हैं, लेकिन यह मदद नहीं कर सकता है। क्या आप सहमत हैं?
ednaMode

1
मेरे अनुभव से, हाँ, मैं सहमत हूँ।
rinspy

"ट्रेन और परीक्षण के बीच कोई अंतर नहीं होने का मतलब है कि निश्चित रूप से कोई ओवरफिटिंग नहीं है" जरूरी नहीं कि पकड़ हो। जब आपके पास डेटा की अनंत राशि होती है, तो आपको मॉडल ओवरफिट होने पर भी ट्रेन और परीक्षण के बीच शून्य अंतर मिलेगा। इसलिए मुझे लगता है कि उस कथन को मान्य होने के लिए, आपको कुछ और मान्यताओं की आवश्यकता है।
एलकेएस

@LKS मुझे यकीन नहीं है कि आपके यहाँ ओवरफिट करने से क्या मतलब है। आउट-ऑफ-सैंपल प्रदर्शन हमेशा इन-सैंपल प्रदर्शन से कम या बराबर होगा, यह मानते हुए कि डेटा का वितरण स्थिर रहता है। तो शून्य अंतर हमारा सबसे अच्छा मामला है। शून्य अंतराल के साथ ओवरफिटिंग कैसे हो सकती है?
rinspy

@rinspy यदि आप प्रशिक्षण और परीक्षण डेटा के बीच संख्यात्मक अंतर के रूप में ओवरफिटिंग को परिभाषित करते हैं, तो आपका कथन सही है। लेकिन मैं मॉडल क्या कर रहा हूं, इसके बारे में अधिक बताना चाहूंगा। उदाहरण के लिए, हमारे पास डिग्री 3 का बहुपद है और परिणाम में एक छोटा गाऊसी शोर शामिल होगा। अगर हमारे पास परिमित नमूने हैं और फिट होने के लिए डिग्री 5 बहुपद का उपयोग करते हैं, तो नमूने के अंदर और बाहर (भविष्यवाणी) प्रदर्शन के बीच एक बड़ा है। लेकिन अगर हम लगभग अनंत नमूने खींच सकते हैं, तो शुद्ध रूप से याद रखने वाले मॉडल में नमूना त्रुटि के अंदर / बाहर शून्य होगा।
एलकेएस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.