सांख्यिकीय शिक्षण सिद्धांत में, एक परीक्षण सेट पर ओवरफ़िटिंग की समस्या नहीं है?


16

आइए MNIST डेटासेट को वर्गीकृत करने के बारे में समस्या पर विचार करें।

Yann LeCun के MNIST वेबपेज के अनुसार , 'Ciresan et al।' कन्वेंशनल न्यूरल नेटवर्क का उपयोग करके MNIST टेस्ट सेट पर 0.23% त्रुटि दर मिली।

मान लें कि MNIST प्रशिक्षण सेट को , MNIST परीक्षण सेट रूप में , अंतिम परिकल्पना उन्होंने का उपयोग रूप में की , और MNIST टेस्ट सेट पर उनकी त्रुटि दर रूप में उपयोग की। ।डीटीआरमैंnडीटीरोंटीडीटीआरमैंn11टीरोंटी(1)=0.0023

उनके विचार में, चूंकि , की परवाह किए बिना इनपुट स्पेस से सैंपल टेस्ट सेट है , वे इस बात पर जोर दे सकते हैं कि उनकी अंतिम परिकल्पना आउट-ऑफ-सैंपल एरर परफॉर्मेंस है। Hoeffding की असमानता से निम्नलिखित के रूप में बाध्य है जहां।डीटीरोंटी1यूटी(1)

पी[|यूटी(1)-टीरोंटी(1)|<ε|]1-22ε2एनटीरोंटी

एनटीरोंटी=|डीटीरोंटी|

दूसरे शब्दों में, कम से कम संभावना 1-δ ,

यूटी(1)टीरोंटी(1)+12एनटीरोंटीएलn2δ

आइए एक और दृष्टिकोण पर विचार करें। मान लीजिए कि कुछ व्यक्ति MNIST टेस्ट सेट को अच्छी तरह से वर्गीकृत करना चाहते हैं। इसलिए उन्होंने पहली बार Yann LeCun के MNIST वेबपेज को देखा , और अन्य लोगों द्वारा 8 अलग-अलग मॉडल का उपयोग करके प्राप्त किए गए परिणामों को देखा,

MNIST वर्गीकरण परिणाम

और अपने मॉडल जी को चुना जीजिसने 8 मॉडलों के बीच MNIST टेस्ट सेट पर सर्वश्रेष्ठ प्रदर्शन किया।

उसके लिए, सीखने की प्रक्रिया एक परिकल्पना जी उठा रही थी जीजिसने परीक्षण सेट डीटीरोंटी पर एक परिकल्पना सेट एचटीआरमैंn={1,2,,8}

इस प्रकार, परीक्षण सेट पर त्रुटि इस सीखने की प्रक्रिया के लिए 'इन-सैंपल' त्रुटि है, इसलिए वह असमानता का पालन करते हुए परिमित परिकल्पना सेट के लिए बाध्य VC को लागू कर सकता है। पी [ | यू टी ( जी ) - आई एन ( जी ) | < Ε ] 1 - 2 | एच टी आर एक आई एन डी | 2 ϵ 2 एन टी एस टीटीरोंटी(जी)

पी[|यूटी(जी)-मैंn(जी)|<ε]1-2|एचटीआरमैंn|2ε2एनटीरोंटी

दूसरे शब्दों में, कम से कम प्रायिकता , 1-δ

यूटी(जी)टीरोंटी(जी)+12एनटीरोंटीएलn2|एचटीआरमैंn|δ

इस परिणाम का अर्थ है कि अगर हम मॉडल को कई मॉडलों में सर्वश्रेष्ठ प्रदर्शन करते हैं तो टेस्ट सेट पर ओवरफिटिंग हो सकती है।

इस स्थिति में, व्यक्ति चुन सकता है , जिसकी त्रुटि दर । चूँकि इस विशेष परीक्षण सेट पर 8 मॉडलों के बीच सबसे अच्छी परिकल्पना है , इसलिए कुछ संभावना हो सकती है कि MNIST परीक्षण सेट पर एक परिकल्पना है।1टीरोंटी(1)=0.00231डीटीरोंटी1

इस प्रकार, यह व्यक्ति निम्नलिखित असमानता पर जोर दे सकता है।

यूटी(1)टीरोंटी(1)+12एनटीरोंटीएलn2|एचटीआरमैंn|δ

नतीजतन, हमें दो असमानताएं और ।

पी[यूटी(1)टीरोंटी(1)+12एनटीरोंटीएलn2δ]1-δ
पी[यूटी(1)टीरोंटी(1)+12एनटीरोंटीएलn2|एचटीआरमैंn|δ]1-δ

हावेर, यह स्पष्ट है कि ये दो असमानताएं असंगत हैं।

मैं कहाँ गलत कर रहा हूँ? कौन सा सही है और कौन सा गलत है

यदि बाद गलत है, तो इस मामले में परिमित परिकल्पना सेट के लिए बाध्य वीसी को लागू करने का सही तरीका क्या है?

जवाबों:


1

उन दो असमानताओं के बीच, मुझे लगता है कि बाद में गलत है। संक्षेप में, यहाँ क्या गलत है पहचान दिया गया है कि परीक्षण डेटा का एक फ़ंक्शन है जबकि एक मॉडल है जो परीक्षण डेटा से स्वतंत्र है।जी=1जी1

वास्तव में, में 8 मॉडलों में से एक है जो कि सबसे अच्छा परीक्षण सेट करता है ।जीएचटीआरमैंn={1,2,,8}डीटीरोंटी

इसलिए, का एक कार्य है । एक विशिष्ट परीक्षण सेट के लिए, (जैसा आपने उल्लेख किया है), यह ऐसा हो सकता है कि , लेकिन सामान्य तौर पर, परीक्षण सेट के आधार पर, में कोई भी मूल्य ले सकता है । दूसरी ओर में सिर्फ एक मूल्य है ।जीडीटीरोंटीडीटीरोंटी*जी(डीटीरोंटी*)=1जी(डीटीरोंटी)एचटीआरमैंn1एचटीआरमैंn

अन्य प्रश्न के लिए:

यदि बाद गलत है, तो इस मामले में परिमित परिकल्पना सेट के लिए बाध्य वीसी को लागू करने का सही तरीका क्या है?

बस की जगह नहीं है द्वारा , आप सही बाध्य (के लिए मिल जाएगा , निश्चित रूप से) और यह अन्य बाध्य (जिसके लिए है के साथ कोई विवाद होगा )।जी1जी1

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.