समय के साथ प्रशिक्षण की हानि बढ़ती है [डुप्लिकेट]

मैं 4 प्रकार के अनुक्रमों को वर्गीकृत करने के लिए एक मॉडल (आवर्तक तंत्रिका नेटवर्क) का प्रशिक्षण दे रहा हूं। जब मैं अपना प्रशिक्षण चलाता हूं तो मुझे प्रशिक्षण हानि कम होती दिखाई देती है जब तक कि मैं अपने प्रशिक्षण बैचों में 90% से अधिक नमूनों को सही ढंग से वर्गीकृत नहीं करता। हालांकि बाद में कुछ युगों से मैंने नोटिस किया कि प्रशिक्षण का नुकसान बढ़ता है और मेरी सटीकता कम हो जाती है। यह मेरे लिए अजीब लगता है क्योंकि मुझे उम्मीद है कि प्रशिक्षण सेट पर प्रदर्शन बिगड़ने के साथ समय में सुधार होना चाहिए। मैं क्रॉस एन्ट्रॉपी लॉस का उपयोग कर रहा हूं और मेरी सीखने की दर 0.0002 है।

अद्यतन: यह पता चला कि सीखने की दर बहुत अधिक थी। कम पर्याप्त सीखने की दर के साथ मैं इस व्यवहार का पालन नहीं करता। हालाँकि मुझे अभी भी यह अजीब लगता है। किसी भी अच्छी व्याख्या का स्वागत किया जाता है कि ऐसा क्यों होता है

— dins2018
स्रोत

जवाबों:

सीएनएन का प्रशिक्षण लेते समय मेरा ऐसा ही व्यवहार था, ऐसा इसलिए था क्योंकि मैंने त्रुटि गणना के लिए सीखने की दर में गिरावट के साथ ढाल वंश का उपयोग किया था। क्या आपने पुनरावृत्तियों की संख्या में उल्लेखनीय रूप से वृद्धि की है और जाँच की है कि क्या यह व्यवहार नई कम सीखने की दर के साथ बहुत बाद में आता है?

— Freundlicher
स्रोत

वास्तव में हां, हालांकि एक बिंदु यह है कि कम पर्याप्त सीखने की दर के लिए जहां यह फिर से ऊपर नहीं जाएगा। मैं एक सैद्धांतिक रूप से ध्वनि स्पष्टीकरण की तलाश में हूं कि ऐसा क्यों होता है

— dins2018

आप किस अनुकूलन एल्गोरिथ्म का उपयोग करते हैं?

— फ्रायन्डलिचर

मैं एडम ऑप्टिमाइज़र का उपयोग lr = 0.00001, betas = (0.5, 0.999) के साथ करता

— हूं

मुझे लगता है कि आप इस छोटे से सीखने की दर के साथ स्थानीय न्यूनतम पर लगभग अनुमानित हैं कि बिंदु जहां हानि मूल्य थोड़ा बढ़ जाता है (क्योंकि आप न्यूनतम से अधिक हो जाते हैं) को बहुत अधिक पुनरावृत्तियों की आवश्यकता होती है। नुकसान के मूल्य में यह वृद्धि एडम के कारण है, जिस क्षण स्थानीय न्यूनतम पार हो जाता है और एक निश्चित संख्या में पुनरावृत्तियों, एक छोटी संख्या को और भी छोटी संख्या से विभाजित किया जाता है और हानि मान फट जाता है।

— फ्रेंडलिचर

आप बीटा 1 = 0.9 और बीटा 2 = 0.999 सेट कर सकते हैं। इस व्यवहार के खिलाफ काम करने वाले सामान्य मूल्य हैं।

— फ्रेंडलिचर

चूँकि सीखने की दर बहुत बड़ी है, इसलिए यह कम हो जाएगा और नुकसान की न्यूनतम क्रिया को खोजने में विफल रहेगा। कुछ समय के बाद सीखने की दर को कम करने के लिए एक अनुसूचक का उपयोग समस्या को हल करने में मदद करेगा

— यावें झेंग
स्रोत

उच्च शिक्षण दर के साथ आप ढाल के विपरीत दिशा में बहुत आगे बढ़ रहे हैं और स्थानीय मिनीमा से दूर जा सकते हैं जो नुकसान को बढ़ा सकता है। सीखने की दर निर्धारण और ढाल कतरन मदद कर सकता है।

— namuchan95
स्रोत

सीवी में आपका स्वागत है। अपवोट प्राप्त करने के लिए अधिक संपूर्ण उत्तर प्रदान करना सबसे अच्छा है, आँकड़े देखें । मार्गदर्शिका के लिए देखे ।Stackexchange.com/help/how-to- answer ।

— रेनेबट