समय के साथ प्रशिक्षण की हानि बढ़ती है [डुप्लिकेट]


21

मैं 4 प्रकार के अनुक्रमों को वर्गीकृत करने के लिए एक मॉडल (आवर्तक तंत्रिका नेटवर्क) का प्रशिक्षण दे रहा हूं। जब मैं अपना प्रशिक्षण चलाता हूं तो मुझे प्रशिक्षण हानि कम होती दिखाई देती है जब तक कि मैं अपने प्रशिक्षण बैचों में 90% से अधिक नमूनों को सही ढंग से वर्गीकृत नहीं करता। हालांकि बाद में कुछ युगों से मैंने नोटिस किया कि प्रशिक्षण का नुकसान बढ़ता है और मेरी सटीकता कम हो जाती है। यह मेरे लिए अजीब लगता है क्योंकि मुझे उम्मीद है कि प्रशिक्षण सेट पर प्रदर्शन बिगड़ने के साथ समय में सुधार होना चाहिए। मैं क्रॉस एन्ट्रॉपी लॉस का उपयोग कर रहा हूं और मेरी सीखने की दर 0.0002 है।

अद्यतन: यह पता चला कि सीखने की दर बहुत अधिक थी। कम पर्याप्त सीखने की दर के साथ मैं इस व्यवहार का पालन नहीं करता। हालाँकि मुझे अभी भी यह अजीब लगता है। किसी भी अच्छी व्याख्या का स्वागत किया जाता है कि ऐसा क्यों होता है

हानि कम हो जाती है और फिर बढ़ जाती है

जवाबों:


6

सीएनएन का प्रशिक्षण लेते समय मेरा ऐसा ही व्यवहार था, ऐसा इसलिए था क्योंकि मैंने त्रुटि गणना के लिए सीखने की दर में गिरावट के साथ ढाल वंश का उपयोग किया था। क्या आपने पुनरावृत्तियों की संख्या में उल्लेखनीय रूप से वृद्धि की है और जाँच की है कि क्या यह व्यवहार नई कम सीखने की दर के साथ बहुत बाद में आता है?


वास्तव में हां, हालांकि एक बिंदु यह है कि कम पर्याप्त सीखने की दर के लिए जहां यह फिर से ऊपर नहीं जाएगा। मैं एक सैद्धांतिक रूप से ध्वनि स्पष्टीकरण की तलाश में हूं कि ऐसा क्यों होता है
dins2018

आप किस अनुकूलन एल्गोरिथ्म का उपयोग करते हैं?
फ्रायन्डलिचर

मैं एडम ऑप्टिमाइज़र का उपयोग lr = 0.00001, betas = (0.5, 0.999) के साथ करता
हूं

1
मुझे लगता है कि आप इस छोटे से सीखने की दर के साथ स्थानीय न्यूनतम पर लगभग अनुमानित हैं कि बिंदु जहां हानि मूल्य थोड़ा बढ़ जाता है (क्योंकि आप न्यूनतम से अधिक हो जाते हैं) को बहुत अधिक पुनरावृत्तियों की आवश्यकता होती है। नुकसान के मूल्य में यह वृद्धि एडम के कारण है, जिस क्षण स्थानीय न्यूनतम पार हो जाता है और एक निश्चित संख्या में पुनरावृत्तियों, एक छोटी संख्या को और भी छोटी संख्या से विभाजित किया जाता है और हानि मान फट जाता है।
फ्रेंडलिचर

2
आप बीटा 1 = 0.9 और बीटा 2 = 0.999 सेट कर सकते हैं। इस व्यवहार के खिलाफ काम करने वाले सामान्य मूल्य हैं।
फ्रेंडलिचर

1

चूँकि सीखने की दर बहुत बड़ी है, इसलिए यह कम हो जाएगा और नुकसान की न्यूनतम क्रिया को खोजने में विफल रहेगा। कुछ समय के बाद सीखने की दर को कम करने के लिए एक अनुसूचक का उपयोग समस्या को हल करने में मदद करेगा


0

उच्च शिक्षण दर के साथ आप ढाल के विपरीत दिशा में बहुत आगे बढ़ रहे हैं और स्थानीय मिनीमा से दूर जा सकते हैं जो नुकसान को बढ़ा सकता है। सीखने की दर निर्धारण और ढाल कतरन मदद कर सकता है।


सीवी में आपका स्वागत है। अपवोट प्राप्त करने के लिए अधिक संपूर्ण उत्तर प्रदान करना सबसे अच्छा है, आँकड़े देखें । मार्गदर्शिका के लिए देखे ।Stackexchange.com/help/how-to- answer ।
रेनेबट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.