यदि मैं सटीकता की परिभाषा को सही ढंग से समझता हूं, तो सटीकता (डेटा बिंदुओं का% सही रूप से वर्गीकृत) एमएसई कहने का मतलब है की तुलना में कम संचयी है। इसलिए आप देखते हैं कि आपकी loss
तेजी से वृद्धि हो रही है, जबकि सटीकता में उतार-चढ़ाव हो रहा है।
सहज रूप से, इसका मूल रूप से मतलब है, उदाहरण के कुछ हिस्से को यादृच्छिक रूप से वर्गीकृत किया गया है , जो उतार-चढ़ाव पैदा करता है, क्योंकि सही यादृच्छिक अनुमानों की संख्या में हमेशा उतार-चढ़ाव होता है (सटीकता की कल्पना करें जब सिक्का हमेशा "सिर" वापस आ जाना चाहिए)। मूल रूप से शोर के प्रति संवेदनशीलता (जब वर्गीकरण यादृच्छिक परिणाम उत्पन्न करता है) ओवरफिटिंग (विकिपीडिया देखें) की एक आम परिभाषा है:
सांख्यिकी और मशीन सीखने में, सबसे आम कार्यों में से एक "मॉडल" को प्रशिक्षण डेटा के एक सेट में फिट करना है, ताकि सामान्य अप्रशिक्षित डेटा पर विश्वसनीय भविष्यवाणियां करने में सक्षम हो सकें। ओवरफिटिंग में, एक सांख्यिकीय मॉडल अंतर्निहित संबंध के बजाय यादृच्छिक त्रुटि या शोर का वर्णन करता है
ओवरफिटिंग का एक और सबूत यह है कि आपका नुकसान बढ़ रहा है, नुकसान को अधिक सटीक रूप से मापा जाता है, यह शोर की भविष्यवाणी के प्रति अधिक संवेदनशील है यदि इसे सिग्मोइड्स / थ्रेसहोल्ड द्वारा स्क्वैश नहीं किया गया है (जो नुकसान के लिए आपका मामला लगता है)। सहज रूप से, आप ऐसी स्थिति की कल्पना कर सकते हैं जब नेटवर्क आउटपुट के बारे में बहुत अधिक सुनिश्चित हो (जब यह गलत हो), इसलिए यह यादृच्छिक गर्भपात के मामले में थ्रेसहोल्ड से बहुत दूर का मूल्य देता है।
आपके मामले के बारे में, आपके मॉडल को ठीक से नियमित नहीं किया जा सकता है, संभावित कारण:
- पर्याप्त डेटा-पॉइंट नहीं, बहुत अधिक क्षमता
- आदेश
- नहीं / गलत सुविधा स्केलिंग / सामान्यीकरण
- सीखने की दर: बहुत बड़ा है, इसलिए SGD बहुत दूर कूदता है और स्थानीय मिनीमा के पास के क्षेत्र को याद करता है। यह "अंडर-फिटिंग" (स्वयं डेटा के प्रति असंवेदनशीलता) का चरम मामला होगा, लेकिन इनपुट से डेटा को हाथ से निकालकर आउटपुट पर (कम-आवृत्ति) शोर उत्पन्न कर सकता है - ओवरफिटिंग अंतर्ज्ञान के विपरीत, यह होगा। सिक्के की भविष्यवाणी करते समय हमेशा सिर का अनुमान लगाना। जैसा कि @JanKukacka ने बताया, इस क्षेत्र में पहुंचने के लिए "एक मिनीमा के करीब" बहुत अधिक उथल-पुथल का कारण हो सकता है, इसलिए अगर बहुत छोटा है तो यह आपके डेटा में "उच्च-आवृत्ति" शोर के प्रति संवेदनशील होगा। ααα बीच में कहीं होना चाहिए।
संभव समाधान:
- अधिक डेटा-पॉइंट्स प्राप्त करें (या मौजूदा लोगों के सेट का कृत्रिम रूप से विस्तार करें)
- हाइपर-पैरामीटर्स के साथ खेलना (उदाहरण के लिए क्षमता / कमी या नियमितीकरण बढ़ाना)
- नियमितीकरण : ड्रॉपआउट, जल्दी-रुकने की कोशिश करें