मुझे आशा है कि निम्नलिखित अंश मेरे प्रश्न को समझने में एक अंतर्दृष्टि प्रदान करेंगे। ये http://neuralnetworksanddeeplearning.com/chap3.html से हैं
फिर धीरे-धीरे सीखना धीमा हो जाता है। अंत में, 280 के आसपास की वर्गीकरण सटीकता में बहुत सुधार होना बंद हो जाता है। बाद के युगों में केवल युग के अंत में सटीकता के मूल्य के पास छोटे स्टोचैस्टिक उतार-चढ़ाव देखने को मिलते हैं। पहले के ग्राफ के साथ इसका विरोध करें, जहां प्रशिक्षण डेटा से जुड़ी लागत आसानी से गिरती रहती है। यदि हम उस लागत को देखते हैं, तो ऐसा लगता है कि हमारा मॉडल अभी भी "बेहतर" हो रहा है। लेकिन परीक्षण सटीकता के परिणाम बताते हैं कि सुधार एक भ्रम है। ठीक उसी तरह जिस मॉडल को फरमी ने नापसंद किया था, हमारे नेटवर्क ने एपोच 280 के बाद जो सीखा वह अब टेस्ट डेटा के लिए सामान्य नहीं है। और इसलिए यह उपयोगी नहीं है। हम कहते हैं कि नेटवर्क 280 से आगे निकल रहा है या आगे निकल रहा है।
हम एक तंत्रिका नेटवर्क को प्रशिक्षित कर रहे हैं और लागत (प्रशिक्षण डेटा पर) युग 400 तक गिर रहा है, लेकिन वर्गीकरण सटीकता स्थिर हो रही है (कुछ स्टोकैस्टिक उतार-चढ़ाव को रोकना) युग 280 के बाद इसलिए हम निष्कर्ष निकालते हैं कि मॉडल प्रशिक्षण डेटा पोस्ट युग 280 पर अति कर रहा है।
हम देख सकते हैं कि परीक्षण डेटा पर लागत लगभग 15 वर्ष तक सुधारती है, लेकिन इसके बाद यह वास्तव में खराब होने लगती है, भले ही प्रशिक्षण डेटा पर लागत बेहतर हो रही है। यह एक और संकेत है कि हमारा मॉडल ओवरफिटिंग है। यह एक पहेली बन गया है, हालांकि, यह है कि क्या हमें 15 या युग 280 का संबंध मानना चाहिए, जिस बिंदु पर ओवरफिटिंग सीखने पर हावी हो रही है? व्यावहारिक दृष्टिकोण से, जो हम वास्तव में परवाह करते हैं वह परीक्षण डेटा पर वर्गीकरण सटीकता में सुधार कर रहा है, जबकि परीक्षण डेटा पर लागत वर्गीकरण सटीकता के लिए एक प्रॉक्सी से अधिक नहीं है। और इसलिए यह सबसे अधिक समझ में आता है कि 280 280 का संबंध उस बिंदु के रूप में है जिसके आगे हमारे तंत्रिका नेटवर्क में अधिगम हावी है।
जैसा कि पहले परीक्षण लागत के साथ तुलना में परीक्षण डेटा पर वर्गीकरण सटीकता का विरोध था, अब हम प्रशिक्षण लागत के खिलाफ परीक्षण डेटा पर खर्च कर रहे हैं।
फिर किताब बताती है कि 280 सही युग क्यों है जहां ओवरफिटिंग शुरू हो गई है। यही मेरे साथ एक मुद्दा है। मैं इसके चारों ओर अपना सिर नहीं लपेट सकता।
हम मॉडल को लागत को कम करने के लिए कह रहे हैं और इस तरह लागत मीट्रिक है जो इसे सही तरीके से वर्गीकृत करने के लिए अपनी ताकत के माप के रूप में उपयोग करता है। यदि हम 280 को सही युग मानते हैं, जहां ओवरफिटिंग शुरू हो गई है, तो क्या हमने एक तरह से पक्षपाती मॉडल नहीं बनाया है, हालांकि यह विशेष परीक्षण डेटा पर एक बेहतर क्लासिफायर है, लेकिन फिर भी कम आत्मविश्वास के साथ निर्णय ले रहा है और इसलिए इसके विचलन का खतरा अधिक है परीक्षण डेटा पर दिखाए गए परिणामों से?