RMSProp और एडम बनाम SGD


12

मैं RMSProp, एडम और SGD के साथ नेटवर्क का उपयोग करते हुए EMNIST सत्यापन सेट पर प्रयोग कर रहा हूं। मैं SGD (0.1 की सीखने की दर) और ड्रॉपआउट (0.1 ड्रॉपआउट प्रोब) के साथ-साथ एल 2 नियमितीकरण (1e-05 जुर्माना) के साथ 87% सटीकता प्राप्त कर रहा हूं। आरएमएसप्रॉप और एडम के साथ ही 0.001 की प्रारंभिक सीखने की दर के साथ एक ही सटीक कॉन्फ़िगरेशन का परीक्षण करते समय, मैं 85% की सटीकता और काफी कम चिकनी प्रशिक्षण वक्र प्राप्त कर रहा हूं। मुझे नहीं पता कि इस व्यवहार को कैसे समझाऊं। प्रशिक्षण वक्र में चिकनाई की कमी और कम सटीकता और उच्च त्रुटि दर प्राप्त करने के पीछे क्या कारण हो सकता है?


यह नेटवर्क पर निर्भर करता है। क्या आप हमें नेटवर्क के बारे में जानकारी दिखा सकते हैं? इसके अलावा, आप सीखने के घटता प्रदान कर सकते हैं?
मेमोरियल

यह 5 परतों वाला नेटवर्क है (प्रत्येक लेयर में ड्रॉपआउट, अफाइन, ईएलयू), इस प्रकार सेट किया गया है: 150 छिपे हुए आयाम, ईएलयू सक्रियण फ़ंक्शन का उपयोग किया गया, 0.1 के लिए सीखने की दर, RMS और एडम के लिए 0.001 सीखने की दर, 1e के साथ L2 नियमितीकरण -05 जुर्माना, 0.1 अपवर्जन संभावना के साथ ड्रॉपआउट।
Alk

और जब आप कहते हैं "सटीक एक ही विन्यास ... 0.001 की प्रारंभिक सीखने की दर" क्या आपका मतलब है कि आपने एक अलग सीखने की दर का उपयोग किया है या आपने दो प्रयोग किए हैं: एक एक ही सीखने की दर के साथ और एक दूसरे के साथ? यह उस वास्तविक सॉफ़्टवेयर पर निर्भर हो सकता है जिसका आप उपयोग कर रहे हैं कि कौन से पैरामीटर डिफ़ॉल्ट हैं।
वेन

इसलिए मैंने एडम और आरएमएसप्रॉप दोनों के लिए 0.1 का इस्तेमाल किया। ऐसा इसलिए है क्योंकि जब मैंने एडम और आरएमएसप्रॉप को 0.1 सीखने की दर से चलाया तो दोनों ने 60% की सटीकता के साथ खराब प्रदर्शन किया। इसके अलावा, एडम पर कागज में 0.001 अनुशंसित मूल्य है।
Alk

आपको लर्निंग कर्व्स पोस्ट करना चाहिए, और चाहे आप परीक्षण या प्रशिक्षण डेटा पर त्रुटि मापें।
जैकब बार्टिचुक

जवाबों:


4

कुछ लेखों को ऑनलाइन और केरस प्रलेखन पर शोध करने के बाद यह सुझाव दिया गया है कि आरएमएसप्रॉप ऑप्टिमाइज़र को आवर्तक तंत्रिका नेटवर्क के लिए अनुशंसित किया जाता है। https://github.com/keras-team/keras/blob/master/keras/optimizers.py#L209

स्टोचस्टिक ग्रैडिएंट डिसेंट मेरे मामले में नुकसान फ़ंक्शन की जानकारी के आधार पर मॉडल के वज़न को अनुकूलित करने के लिए प्रत्येक बैच के बीच इसकी सीखने की दर और गति का लाभ उठाता प्रतीत होता है।

मैं अनुकूलन एल्गोरिदम के बारे में अतिरिक्त जानकारी के लिए http://ruder.io/optimizing-gradient-descent/index.html सुझाव देता हूं ।


मुझे यकीन नहीं है कि "आरएमएसप्रॉप ऑप्टिमाइज़र द्वारा आवर्तक तंत्रिका नेटवर्क के लिए अनुशंसित" का क्या मतलब है। आपके द्वारा डाला गया लिंक अब टूट गया है और इसका कहीं भी उल्लेख नहीं किया गया है कि यह अनुशंसित है।
हर्षल पारेख
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.