सांख्यिकीय शिक्षण सिद्धांत में, एक परीक्षण सेट पर ओवरफ़िटिंग की समस्या नहीं है?

आइए MNIST डेटासेट को वर्गीकृत करने के बारे में समस्या पर विचार करें।

Yann LeCun के MNIST वेबपेज के अनुसार , 'Ciresan et al।' कन्वेंशनल न्यूरल नेटवर्क का उपयोग करके MNIST टेस्ट सेट पर 0.23% त्रुटि दर मिली।

मान लें कि MNIST प्रशिक्षण सेट को , MNIST परीक्षण सेट रूप में , अंतिम परिकल्पना उन्होंने का उपयोग रूप में की , और MNIST टेस्ट सेट पर उनकी त्रुटि दर रूप में उपयोग की। । $D_{train}$ $D_{test}$ $D_{train}$ $h_{1}$ $h_{1}$ $E_{test}(h_{1}) = 0.0023$

उनके विचार में, चूंकि , की परवाह किए बिना इनपुट स्पेस से सैंपल टेस्ट सेट है , वे इस बात पर जोर दे सकते हैं कि उनकी अंतिम परिकल्पना आउट-ऑफ-सैंपल एरर परफॉर्मेंस है। Hoeffding की असमानता से निम्नलिखित के रूप में बाध्य है जहां। $D_{test}$ $h_{1}$ $E_{out}(h_{1})$

पी [| इ_{ओ यू टी} (ज_{1}) - इ_{टी इ रों टी} (ज_{1}) | < ε |] \geq 1 - 2 इ^{2 ε^{2} {एन}_{टी इ रों टी}}

$P[|E_{out}(h_{1}) - E_{test}(h_{1})| < \epsilon|] \geq 1 - 2e^{2\epsilon^{2}N_{test}}$

N_{t e s t} = | D_{t e s t} |

$N_{test}=|D_{test}|$

दूसरे शब्दों में, कम से कम संभावना $1-\delta$ ,

इ_{ओ यू टी} (ज_{1}) \leq इ_{टी इ रों टी} (ज_{1}) + \sqrt{\frac{1}{2 {एन}_{टी इ रों टी}} एल n \frac{2}{δ}}

$E_{out}(h_1) \leq E_{test}(h_1) + \sqrt{{1 \over 2N_{test}}ln{2\over\delta}}$

आइए एक और दृष्टिकोण पर विचार करें। मान लीजिए कि कुछ व्यक्ति MNIST टेस्ट सेट को अच्छी तरह से वर्गीकृत करना चाहते हैं। इसलिए उन्होंने पहली बार Yann LeCun के MNIST वेबपेज को देखा , और अन्य लोगों द्वारा 8 अलग-अलग मॉडल का उपयोग करके प्राप्त किए गए परिणामों को देखा,

MNIST वर्गीकरण परिणाम

और अपने मॉडल चुना $g$ जिसने 8 मॉडलों के बीच MNIST टेस्ट सेट पर सर्वश्रेष्ठ प्रदर्शन किया।

उसके लिए, सीखने की प्रक्रिया एक परिकल्पना उठा रही थी $g$ जिसने परीक्षण सेट $D_{test}$ पर एक परिकल्पना सेट $H_{trained}=\{h_1, h_2, .. ,h_8\}$ ।

इस प्रकार, परीक्षण सेट पर त्रुटि इस सीखने की प्रक्रिया के लिए 'इन-सैंपल' त्रुटि है, इसलिए वह असमानता का पालन करते हुए परिमित परिकल्पना सेट के लिए बाध्य VC को लागू कर सकता है। $E_{test}(g)$

पी [| इ_{ओ यू टी} (जी) - इ_{मैं n} (जी) | < ε] \geq 1 - 2 | {एच}_{टी आर ए मैं n इ घ} | इ^{2 ε^{2} {एन}_{टी इ रों टी}}

$P[|E_{out}(g)-E_{in}(g)|<\epsilon] \geq 1 - 2|H_{trained}|e^{2\epsilon^{2}N_{test}}$

दूसरे शब्दों में, कम से कम प्रायिकता , $1-\delta$

इ_{ओ यू टी} (जी) \leq इ_{टी इ रों टी} (जी) + \sqrt{\frac{1}{2 {एन}_{टी इ रों टी}} एल n \frac{2 | {एच}_{टी आर ए मैं n इ घ} |}{δ}}

$E_{out}(g) \leq E_{test}(g) + \sqrt{{1 \over 2N_{test}}ln{2|H_{trained}|\over\delta}}$

इस परिणाम का अर्थ है कि अगर हम मॉडल को कई मॉडलों में सर्वश्रेष्ठ प्रदर्शन करते हैं तो टेस्ट सेट पर ओवरफिटिंग हो सकती है।

इस स्थिति में, व्यक्ति चुन सकता है , जिसकी त्रुटि दर । चूँकि इस विशेष परीक्षण सेट पर 8 मॉडलों के बीच सबसे अच्छी परिकल्पना है , इसलिए कुछ संभावना हो सकती है कि MNIST परीक्षण सेट पर एक परिकल्पना है। $h_{1}$ $E_{test}(h_{1}) = 0.0023$ $h_{1}$ $D_{test}$ $h_{1}$

इस प्रकार, यह व्यक्ति निम्नलिखित असमानता पर जोर दे सकता है।

इ_{ओ यू टी} (ज_{1}) \leq इ_{टी इ रों टी} (ज_{1}) + \sqrt{\frac{1}{2 {एन}_{टी इ रों टी}} एल n \frac{2 | {एच}_{टी आर ए मैं n इ घ} |}{δ}}

$E_{out}(h_1) \leq E_{test}(h_1) + \sqrt{{1 \over 2N_{test}}ln{2|H_{trained}|\over\delta}}$

नतीजतन, हमें दो असमानताएं और ।

पी [इ_{ओ यू टी} (ज_{1}) \leq इ_{टी इ रों टी} (ज_{1}) + \sqrt{\frac{1}{2 {एन}_{टी इ रों टी}} एल n \frac{2}{δ}}] \geq 1 - δ

$P[\;E_{out}(h_1) \leq E_{test}(h_1) + \sqrt{{1 \over 2N_{test}}ln{2\over\delta}}\;] \geq 1-\delta$

पी [इ_{ओ यू टी} (ज_{1}) \leq इ_{टी इ रों टी} (ज_{1}) + \sqrt{\frac{1}{2 {एन}_{टी इ रों टी}} एल n \frac{2 | {एच}_{टी आर ए मैं n इ घ} |}{δ}}] \geq 1 - δ

$P[\;E_{out}(h_1) \leq E_{test}(h_1) + \sqrt{{1 \over 2N_{test}}ln{2|H_{trained}|\over\delta}}\;] \geq 1-\delta$

हावेर, यह स्पष्ट है कि ये दो असमानताएं असंगत हैं।

मैं कहाँ गलत कर रहा हूँ? कौन सा सही है और कौन सा गलत है

यदि बाद गलत है, तो इस मामले में परिमित परिकल्पना सेट के लिए बाध्य वीसी को लागू करने का सही तरीका क्या है?

— asqdf
स्रोत

उन दो असमानताओं के बीच, मुझे लगता है कि बाद में गलत है। संक्षेप में, यहाँ क्या गलत है पहचान दिया गया है कि परीक्षण डेटा का एक फ़ंक्शन है जबकि एक मॉडल है जो परीक्षण डेटा से स्वतंत्र है। $g=h_1$ $g$ $h_1$

वास्तव में, में 8 मॉडलों में से एक है जो कि सबसे अच्छा परीक्षण सेट करता है । $g$ $H_{trained} = \{ h_1, h_2,..., h_8 \}$ $D_{test}$

इसलिए, का एक कार्य है । एक विशिष्ट परीक्षण सेट के लिए, (जैसा आपने उल्लेख किया है), यह ऐसा हो सकता है कि , लेकिन सामान्य तौर पर, परीक्षण सेट के आधार पर, में कोई भी मूल्य ले सकता है । दूसरी ओर में सिर्फ एक मूल्य है । $g$ $D_{test}$ $D^*_{test}$ $g(D^*_{test}) = h_1$ $g(D_{test})$ $H_{trained}$ $h_1$ $H_{trained}$

अन्य प्रश्न के लिए:

यदि बाद गलत है, तो इस मामले में परिमित परिकल्पना सेट के लिए बाध्य वीसी को लागू करने का सही तरीका क्या है?

बस की जगह नहीं है द्वारा , आप सही बाध्य (के लिए मिल जाएगा , निश्चित रूप से) और यह अन्य बाध्य (जिसके लिए है के साथ कोई विवाद होगा )। $g$ $h_1$ $g$ $h_1$

— Tĩnh Trần
स्रोत