ओवरफिटिंग के लिए गणितीय / एल्गोरिथमिक परिभाषा


18

क्या ओवरफिटिंग की एक गणितीय या एल्गोरिथम परिभाषा है?

अक्सर प्रदान की जाने वाली परिभाषाएं हर एक बिंदु के माध्यम से जाने वाली रेखा के साथ अंक की क्लासिक 2-डी साजिश हैं और सत्यापन हानि वक्र अचानक ऊपर जा रही हैं।

लेकिन क्या कोई गणितीय रूप से कठोर परिभाषा है?

जवाबों:


22

हाँ एक (थोड़ी और) कठोर परिभाषा है:

मापदंडों के एक सेट के साथ एक मॉडल को देखते हुए, मॉडल को डेटा को ओवरफिट करने के लिए कहा जा सकता है यदि एक निश्चित संख्या में प्रशिक्षण चरणों के बाद, प्रशिक्षण त्रुटि कम हो जाती है जबकि आउट ऑफ सैंपल (टेस्ट) त्रुटि बढ़ने लगती है।

यहाँ छवि विवरण दर्ज करें इस उदाहरण में आउट ऑफ सैंपल (परीक्षण / सत्यापन) त्रुटि पहले ट्रेन की त्रुटि के साथ सिंक में कम हो जाती है, फिर यह 90 वें युग के आसपास बढ़ने लगती है, यही कारण है कि जब ओवरफिटिंग शुरू होती है

इसे देखने का एक और तरीका पूर्वाग्रह और विचरण के संदर्भ में है। एक मॉडल के लिए नमूना त्रुटि के दो घटकों में विघटित किया जा सकता है:

  • पूर्वाग्रह: अनुमानित मॉडल से अपेक्षित मूल्य के कारण त्रुटि, सच्चे मॉडल के अपेक्षित मूल्य से अलग है।
  • भिन्नता: डेटा सेट में छोटे उतार-चढ़ाव के प्रति संवेदनशील होने के कारण त्रुटि।

X

Y=f(X)+ϵϵE(ϵ)=0Var(ϵ)=σϵ

और अनुमानित मॉडल है:

Y^=f^(X)

xt

Err(xt)=σϵ+Bias2+Variance

बीमैंरों2=[(एक्सटी)-^(एक्सटी)]2वीआरमैंnसी=[^(एक्सटी)-[^(एक्सटी)]]2

(सख्ती से इस अपघटन को बोलना प्रतिगमन मामले में लागू होता है, लेकिन इसी तरह का अपघटन किसी भी हानि फ़ंक्शन के लिए काम करता है, अर्थात वर्गीकरण मामले में भी)।

उपरोक्त दोनों परिभाषाएँ मॉडल जटिलता से बंधी हुई हैं (मॉडल में मापदंडों की संख्या के संदर्भ में मापा जाता है): मॉडल की जटिलता जितनी अधिक होगी उतनी ही अधिक होने की संभावना है।

विषय के कठोर गणितीय उपचार के लिए सांख्यिकीय शिक्षा के तत्वों के अध्याय 7 को देखें ।

यहाँ छवि विवरण दर्ज करें मॉडल जटिलता के साथ बढ़ता हुआ बायस-वेरिएंस ट्रेडऑफ़ और वेरिएंस (यानी ओवरफिटिंग)। ईएसएल अध्याय 7 से लिया गया


1
क्या प्रशिक्षण और परीक्षण त्रुटि दोनों को कम करना संभव है, लेकिन मॉडल अभी भी ओवरफिट है? मेरे दिमाग में, प्रशिक्षण और परीक्षण त्रुटि का विचलन ओवरफिटिंग को प्रदर्शित करता है, लेकिन ओवरफिटिंग जरूरी नहीं कि विचलन को पकड़ ले। उदाहरण के लिए, एक एनएन जो जेल की तस्वीरों की सफेद पृष्ठभूमि को पहचानकर अपराधियों को गैर-अपराधियों से अलग करना सीखता है, लेकिन प्रशिक्षण और परीक्षण की त्रुटियां संभवत: नहीं बदल रही हैं।
जूल

उस मामले में @yters, मुझे नहीं लगता कि होने वाले ओवरफिटिंग को मापने का कोई तरीका होगा। आप सभी के पास प्रशिक्षण और परीक्षण डेटा तक पहुंच है, और यदि दोनों डेटासेट दोनों एक ही विशेषता को प्रदर्शित करते हैं जो एनएन (सफेद पृष्ठभूमि) का लाभ उठाता है, तो यह केवल एक वैध विशेषता है जिसका लाभ उठाया जाना चाहिए , और जरूरी नहीं कि ओवरफिटिंग। यदि आप उस सुविधा को नहीं चाहते हैं, तो आपको अपने डेटा सेट में इस पर बदलाव शामिल करने होंगे।
केल्विन गॉडफ्रे

1
@ आपके उदाहरण से मुझे लगता है कि मैं "सोशल ओवरफिटिंग" के बारे में सोचता हूं: गणितीय रूप से, मॉडल ओवरफिटिंग नहीं है, लेकिन कुछ बाहरी सामाजिक विचार हैं जो भविष्यवक्ता अच्छा प्रदर्शन नहीं करते हैं। एक और दिलचस्प उदाहरण कुछ कागल प्रतियोगिताओं और विभिन्न खुले डेटा सेट हैं जैसे बोस्टन हाउसिंग, एमएनआईएसटी, आदि ... मॉडल खुद ही ओवरफिटिंग नहीं हो सकता है (पूर्वाग्रह, प्रसरण, आदि के संदर्भ में ...), लेकिन बहुत अधिक है सामान्य रूप से समुदाय में समस्या के बारे में ज्ञान (पिछली टीमों और शोध पत्रों से परिणाम, सार्वजनिक रूप से साझा गुठली आदि ...) जो ओवरफिटिंग का कारण बनते हैं।
स्कैंडर एच। - मोनिका

1
@yters (जारी) यही कारण है कि सिद्धांत में एक अलग सत्यापन डेटा सेट (परीक्षण डेटा सेट के अलावा) एक "तिजोरी" में रहना चाहिए और अंतिम सत्यापन तक उपयोग नहीं किया जाना चाहिए।
स्कैंडर एच। -

1
@CalvinGodfrey यहां एक अधिक तकनीकी उदाहरण है। मान लें कि मेरे पास एक द्विआधारी वर्गीकरण डेटासेट है जो समान रूप से दो वर्गों के बीच विभाजित है, और फिर एक काफी असंतुलित बर्नौली वितरण से वर्गीकरण में शोर जोड़ते हैं ताकि डेटासेट एक वर्ग की ओर तिरछा हो जाए। मैं डेटासेट को ट्रेन और परीक्षण में विभाजित करता हूं, और असंतुलित वितरण के कारण आंशिक रूप से दोनों पर उच्च सटीकता प्राप्त करता हूं। हालांकि, मॉडल की सटीकता सच्चे डेटासेट वर्गीकरण पर उतनी अधिक नहीं है क्योंकि मॉडल ने तिरछी बर्नौली वितरण सीखा है।
18
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.