तंत्रिका नेटवर्क के प्रशिक्षण के दौरान प्रशिक्षण / परीक्षण त्रुटियों में अचानक गिरावट का क्या कारण होता है?


18

मैंने परीक्षण / प्रशिक्षण त्रुटि के भूखंडों को अचानक तंत्रिका नेटवर्क प्रशिक्षण के दौरान कुछ निश्चित युगों में अचानक गिरते देखा है, और मुझे आश्चर्य है कि इन प्रदर्शनों के कारण क्या होता है:

ResNet परीक्षण त्रुटि

यह चित्र कैमिंग हीथ गितुब से लिया गया है, लेकिन इसी तरह के भूखंड कई कागजों में दिखाई देते हैं।


एक संबंधित पेपर: स्मिथ एट अल। 2018 लर्निंग दर क्षय नहीं है, बैच आकार, बढ़ाएँ openreview.net/forum?id=B1Yy1BxCZ
अमीबा

जवाबों:


7

उन्होंने सीखने की दर बदल दी। ध्यान दें कि ड्रॉप बिल्कुल 30 और 60 के युग में है, जाहिर है कि किसी ने स्वयं ही निर्धारित किया है।


धारा 3.4 में, यह बताता है कि सीखने की दर 10 से विभाजित होती है जब त्रुटि पठार
xiawi

2

"अनुकूलन परिदृश्य" के बारे में सोचो। उदाहरण के लिए, यदि आपके पास केवल दो वज़न के साथ एक नेटवर्क था, तो आप सतह पर इन दो वज़न के सभी संयोजनों को प्लॉट कर सकते हैं, जहाँ प्रत्येक बिंदु पर ऊँचाई आपके कॉस्ट फंक्शन रिटर्न की मात्रा का प्रतिनिधित्व करती है यदि आप इसका उपयोग करते हैं (x, y ) अपने दो वजन के रूप में समन्वय करें। आप इस सतह पर सबसे निचले स्तर पर जाने की कोशिश कर रहे हैं ताकि त्रुटि का न्यूनतम स्तर प्राप्त हो सके।
कभी-कभी समस्या यह है कि सतह बहुत पागल हो सकती है, विशेष रूप से केवल दो के बजाय लाखों मापदंडों के साथ नेटवर्क में। आप उन काठी बिंदुओं में फंस सकते हैं जहां प्रगति धीमी हो जाती है, और फिर अचानक नीचे की ओर पहाड़ी में गोली मार दी जाती है।
यहाँ यह कल्पना करने में मदद करने के लिए एक एनीमेशन है जैसा कि आप देख सकते हैं कि अधिक बुनियादी ढाल वंश एल्गोरिदम इन पदों में बहुत आसान हो गए हैं।
यहां छवि विवरण दर्ज करें

इसके अन्य कारण भी हो सकते हैं, लेकिन यह वही है जिसके बारे में आप सबसे अधिक सुनते हैं। यह संभव हो सकता है कि एक नेटवर्क में संतृप्त सक्रियण प्राप्त करने वाली इकाइयों का एक समूह हो सकता है (या रिले के मामले में, एक इकाई जो केवल बहुत कम प्रशिक्षण इनपुट द्वारा सक्रिय हो रही है), और एक इकाई संतृप्ति से बाहर हो जाती है एक चेन रिएक्शन सेट करता है जो बाकी को संतृप्ति से बाहर ले जाता है और वजन अचानक ढाल प्रवाह को बढ़ावा देता है? मैंने ऐसा कुछ भी नहीं देखा है, लेकिन अगर किसी को जोड़ने के लिए कोई अन्य कारण हैं तो मुझे दिलचस्पी होगी।


1
-1। यह सवाल का जवाब नहीं देता है, या कम से कम यह स्पष्ट नहीं है कि यह कैसे करता है, और आपने जो लिखा है वह प्रासंगिक क्यों है। क्यों घटती सीखने की दर एक काठी बिंदु से बाहर निकलेगी?
अमीबा

यह भी स्पष्ट नहीं है कि एनीमेशन वैसे भी सही है, क्योंकि SGD - परिभाषा के अनुसार - हर पुनरावृत्ति के साथ एक अलग अनुकूलन सतह देखता है। इस ग्राफिक में, अनुकूलन की सतह तय हो गई है, इसलिए मेरे लिए यह स्पष्ट नहीं है कि कैसे भी हो यहां पर SGD का वर्णन करना संभव है। SGD "डॉट" पूर्ण-बैच ग्रेडिएंट वंश की तरह अधिक व्यवहार करता है, जिसमें संपूर्ण प्रशिक्षण प्रक्रिया पर अनुकूलन सतह तय की जाती है।
जोश
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.