डेटा सेट आकार के साथ ओवरफ़िटिंग / अंडरफ़िटिंग


11

नीचे दिए गए ग्राफ़ में,

  • x- अक्ष => डेटा सेट आकार
  • y- अक्ष => क्रॉस सत्यापन स्कोर

यहाँ छवि विवरण दर्ज करें

  • लाल रेखा प्रशिक्षण डेटा के लिए है

  • ग्रीन लाइन डेटा के परीक्षण के लिए है

एक ट्यूटोरियल में जिसका मैं उल्लेख कर रहा हूं, लेखक कहता है कि वह बिंदु जहां लाल रेखा और हरी रेखा ओवरलैप का अर्थ है,

अधिक डेटा एकत्र करना सामान्यीकरण प्रदर्शन को बढ़ाने की संभावना नहीं है और हम एक ऐसे क्षेत्र में हैं जिससे हम डेटा को कम करने की संभावना रखते हैं। इसलिए यह अधिक क्षमता वाले मॉडल के साथ प्रयास करने के लिए समझ में आता है

मैं काफी बोल्ड वाक्यांश का अर्थ नहीं समझ सकता और यह कैसे होता है।

किसी भी मदद की सराहना करें।


लाल और हरी रेखाएँ क्या हैं?
कसारा मंशाई

1
@KasraManshaei: मैंने सवाल अपडेट कर दिया है।
tharindu_DG

1
यदि संभव हो, तो ट्यूटोरियल के लिए लिंक जोड़ें। हमें इस सवाल का जवाब और संदर्भ को समझने में मदद मिलेगी बेहतर :)
Dawny33

@ Dawny33: यह एक वीडियो ट्यूटोरियल है और इसे अपलोड करने से मुझे लगता है कि कॉपीराइट मुद्दों का उल्लंघन होगा। :)
tharindu_DG

जवाबों:


6

तो, अंडरफिटिंग का मतलब है कि आपके पास अभी भी सीखने में सुधार करने की क्षमता है, जबकि ओवरफिटिंग का मतलब है कि आपने सीखने के लिए जरूरत से ज्यादा क्षमता का इस्तेमाल किया है।

हरित क्षेत्र वह है जहाँ परीक्षण त्रुटि बढ़ रही है यानी आपको बेहतर परिणाम प्राप्त करने के लिए क्षमता (या तो डेटा बिंदु या मॉडल जटिलता) प्रदान करते रहना चाहिए। अधिक ग्रीन लाइन जाती है, अधिक फ्लैट बन जाता है यानी आप उस बिंदु तक पहुंच रहे हैं जहां प्रदान की गई क्षमता (जो डेटा है) अन्य प्रकार की क्षमता प्रदान करने के लिए पर्याप्त और बेहतर है जो मॉडल जटिलता है।

यदि यह आपके परीक्षण स्कोर में सुधार नहीं करता है या इसे कम भी करता है तो इसका मतलब है कि डेटा-कॉम्प्लेक्सिटी का संयोजन किसी तरह इष्टतम था और आप प्रशिक्षण रोक सकते हैं।


जवाब के लिए धन्यवाद। मेरी कुछ अस्पष्टताएं हैं। - ग्राफ के अंत में, ग्रीन लाइन और रेड लाइन अभिसरण। क्या इसका मतलब यह नहीं है कि हमारे पास अपने मॉडल के लिए पर्याप्त डेटा है? - क्या प्रशिक्षण सेट की तुलना में परीक्षण सेट से बेहतर सटीकता प्राप्त करना संभव है? - आइए हम बताते हैं कि हमें एक बेहतर मॉडल मिला और उस ग्राफ को कैसा दिखना चाहिए?
tharindu_DG

1
"क्या इसका मतलब यह नहीं है कि हमारे पास हमारे मॉडल के लिए पर्याप्त डेटा है?" ठीक यही मैंने लिखा है। हां, आपके पास पर्याप्त डेटा है इसलिए यदि आप सुधारना चाहते हैं तो आपको अधिक जटिलता का प्रयास करना चाहिए। डेटा पर्याप्त है। "क्या प्रशिक्षण सेट की तुलना में परीक्षण सेट से बेहतर सटीकता प्राप्त करना संभव है?" मैंने ऐसा कभी नहीं देखा। यह एक ही प्रयोग में हो सकता है लेकिन सामान्य रूप में नहीं। इस प्रश्न का अनुवाद "क्या मैं जो जानता हूं, उससे अधिक जान सकता हूं?" और जवाब "बेशक नहीं है!"
कासरा मंशाई

1
"कहते हैं कि हमें एक बेहतर मॉडल मिला और उस ग्राफ़ को कैसा दिखना चाहिए?" मुझे लगता है (आप प्रयास करें और मुझे बताएं कि क्या मैं सही हूं :)) या तो प्रशिक्षण और परीक्षण दोनों में सुधार या उनमें से गैर। यह संभव है कि प्रशिक्षण में सुधार होता है और परीक्षण गिरता है, लेकिन इसके विपरीत नहीं और यह भी संभव है कि दोनों कुछ समय के लिए सुधार करें फिर परीक्षण नीचे गिर जाता है जिसे ओवरफिटिंग कहा जाता है। आपको बिंदु परीक्षण लाइन पर प्रशिक्षण बंद कर देना चाहिए
कासरा मनशैई

5

जबकि कासरा मंशाई एक अच्छा सामान्य उत्तर (+1) देता है, मैं एक आसान उदाहरण को समझना चाहूंगा।

एक बहुत ही सरल समस्या के बारे में सोचो: एक समारोह फिटिंग :[0,1]आर। ऐसा करने के लिए, आप बहुपद वर्ग से एक मॉडल लेते हैं। तर्क के लिए, मान लें कि आप डिग्री 0. का बहुपद लेते हैं। यह मॉडल क्षमता बहुत सीमित है क्योंकि यह केवल स्थिरांक को फिट कर सकती है। यह मूल रूप से माध्य मान का अनुमान लगाएगा (त्रुटि फ़ंक्शन पर निर्भर करता है, ज़ाहिर है, लेकिन इसे सरल रखें)। तो अपेक्षाकृत जल्दी आपको इस बात का बहुत अच्छा अनुमान होगा कि इस तरह के मॉडल के लिए सबसे अच्छे पैरामीटर क्या हैं। आपकी परीक्षा और प्रशिक्षण त्रुटि लगभग समान होगी, चाहे आप कितने भी उदाहरण जोड़ लें। समस्या यह नहीं है कि आपके पास पर्याप्त डेटा नहीं है, समस्या यह है कि आपका मॉडल पर्याप्त शक्तिशाली नहीं है: आप कम आंकते हैं

तो चलो दूसरे रास्ते पर चलते हैं: कहते हैं कि आपके पास 1000 डेटा पॉइंट हैं। गणित के एक छोटे से जानने के बाद, आप 999 डिग्री की बहुपद चुनते हैं। अब आप प्रशिक्षण डेटा को पूरी तरह से फिट कर सकते हैं। हालाँकि, आपका डेटा केवल डेटा को पूरी तरह से फिट कर सकता है। उदाहरण के लिए, देखें ( मेरे ब्लॉग से )

यहाँ छवि विवरण दर्ज करें

इस मामले में, आपके पास अन्य मॉडल हैं जो डेटा को पूरी तरह से फिट करते हैं। जाहिर है, डेटा मॉडल बिंदुओं के बीच नीला मॉडल अप्राकृतिक लगता है। मॉडल स्वयं वितरण के प्रकार को अच्छी तरह से पकड़ने में सक्षम नहीं हो सकता है, इसलिए मॉडल को कुछ सरल करने के लिए प्रतिबंधित करना वास्तव में मदद कर सकता है। यह ओवरफिटिंग का एक उदाहरण हो सकता है


1
बहुत अच्छा @moose! (+1) स्पष्टीकरण की समझ के लिए
कासरा मंशाएई

0

आपके मामले में आपके पास - ट्रेन और परीक्षण घटता के बीच एक बहुत छोटा (या नहीं) अंतराल है जो इंगित करता है कि मॉडल में उच्च पूर्वाग्रह / अंडरफिट है, समाधान: अधिक जटिल मॉडल चुनने की आवश्यकता है; - पूरा होने के लिए, एक विपरीत मामले को जोड़ने की जरूरत है जब ट्रेन और परीक्षण घटता के बीच का अंतर बहुत बड़ा है जो एक उच्च विचरण / ओवरफिटिंग, समाधान का संकेत देता है: ए) बढ़ते डेटा सेट का आकार; बी) कम जटिल मॉडल चुनें, सी) नियमितीकरण करें।


0

आप निम्न में से कोई भी / सभी कर सकते हैं:

1) उन विशेषताओं को बदलें जो आप मॉडल में खिला रहे हैं

2) के साथ काम करने के लिए एक अलग मॉडल चुनें

3) मॉडल में अधिक डेटा लोड करें (आपके लिए एक विकल्प को समाप्त नहीं कर सकता है, लेकिन आम तौर पर यह एक विकल्प है)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.