RMSProp और एडम बनाम SGD

मैं RMSProp, एडम और SGD के साथ नेटवर्क का उपयोग करते हुए EMNIST सत्यापन सेट पर प्रयोग कर रहा हूं। मैं SGD (0.1 की सीखने की दर) और ड्रॉपआउट (0.1 ड्रॉपआउट प्रोब) के साथ-साथ एल 2 नियमितीकरण (1e-05 जुर्माना) के साथ 87% सटीकता प्राप्त कर रहा हूं। आरएमएसप्रॉप और एडम के साथ ही 0.001 की प्रारंभिक सीखने की दर के साथ एक ही सटीक कॉन्फ़िगरेशन का परीक्षण करते समय, मैं 85% की सटीकता और काफी कम चिकनी प्रशिक्षण वक्र प्राप्त कर रहा हूं। मुझे नहीं पता कि इस व्यवहार को कैसे समझाऊं। प्रशिक्षण वक्र में चिकनाई की कमी और कम सटीकता और उच्च त्रुटि दर प्राप्त करने के पीछे क्या कारण हो सकता है?

— ALK
स्रोत

यह नेटवर्क पर निर्भर करता है। क्या आप हमें नेटवर्क के बारे में जानकारी दिखा सकते हैं? इसके अलावा, आप सीखने के घटता प्रदान कर सकते हैं?

— मेमोरियल

यह 5 परतों वाला नेटवर्क है (प्रत्येक लेयर में ड्रॉपआउट, अफाइन, ईएलयू), इस प्रकार सेट किया गया है: 150 छिपे हुए आयाम, ईएलयू सक्रियण फ़ंक्शन का उपयोग किया गया, 0.1 के लिए सीखने की दर, RMS और एडम के लिए 0.001 सीखने की दर, 1e के साथ L2 नियमितीकरण -05 जुर्माना, 0.1 अपवर्जन संभावना के साथ ड्रॉपआउट।

— Alk

और जब आप कहते हैं "सटीक एक ही विन्यास ... 0.001 की प्रारंभिक सीखने की दर" क्या आपका मतलब है कि आपने एक अलग सीखने की दर का उपयोग किया है या आपने दो प्रयोग किए हैं: एक एक ही सीखने की दर के साथ और एक दूसरे के साथ? यह उस वास्तविक सॉफ़्टवेयर पर निर्भर हो सकता है जिसका आप उपयोग कर रहे हैं कि कौन से पैरामीटर डिफ़ॉल्ट हैं।

— वेन

इसलिए मैंने एडम और आरएमएसप्रॉप दोनों के लिए 0.1 का इस्तेमाल किया। ऐसा इसलिए है क्योंकि जब मैंने एडम और आरएमएसप्रॉप को 0.1 सीखने की दर से चलाया तो दोनों ने 60% की सटीकता के साथ खराब प्रदर्शन किया। इसके अलावा, एडम पर कागज में 0.001 अनुशंसित मूल्य है।

— Alk

आपको लर्निंग कर्व्स पोस्ट करना चाहिए, और चाहे आप परीक्षण या प्रशिक्षण डेटा पर त्रुटि मापें।

— जैकब बार्टिचुक

कुछ लेखों को ऑनलाइन और केरस प्रलेखन पर शोध करने के बाद यह सुझाव दिया गया है कि आरएमएसप्रॉप ऑप्टिमाइज़र को आवर्तक तंत्रिका नेटवर्क के लिए अनुशंसित किया जाता है। https://github.com/keras-team/keras/blob/master/keras/optimizers.py#L209

स्टोचस्टिक ग्रैडिएंट डिसेंट मेरे मामले में नुकसान फ़ंक्शन की जानकारी के आधार पर मॉडल के वज़न को अनुकूलित करने के लिए प्रत्येक बैच के बीच इसकी सीखने की दर और गति का लाभ उठाता प्रतीत होता है।

मैं अनुकूलन एल्गोरिदम के बारे में अतिरिक्त जानकारी के लिए http://ruder.io/optimizing-gradient-descent/index.html सुझाव देता हूं ।

— एलेजांद्रो ट्रूजिलो
स्रोत

मुझे यकीन नहीं है कि "आरएमएसप्रॉप ऑप्टिमाइज़र द्वारा आवर्तक तंत्रिका नेटवर्क के लिए अनुशंसित" का क्या मतलब है। आपके द्वारा डाला गया लिंक अब टूट गया है और इसका कहीं भी उल्लेख नहीं किया गया है कि यह अनुशंसित है।

— हर्षल पारेख