हमेशा ADAM ऑप्टिमाइज़ेशन तकनीक का उपयोग क्यों नहीं किया जाता है?


14

यह अनुकूली क्षण अनुमान (एडम) लगता है ऑप्टिमाइज़र लगभग हमेशा बेहतर काम करता है (तेजी से और अधिक मज़बूती से एक वैश्विक न्यूनतम तक पहुँच) जब प्रशिक्षण तंत्रिका जाल में लागत समारोह को कम करता है।

हमेशा एडम का उपयोग क्यों नहीं किया जाता है? RMSProp या गति अनुकूलक का उपयोग करके भी परेशान क्यों?


1
मुझे विश्वास नहीं है कि कथन का समर्थन करने का कोई सख्त, औपचारिक तरीका है। यह सभी विशुद्ध रूप से अनुभवजन्य है, क्योंकि त्रुटि सतह अज्ञात है। अंगूठे के एक नियम के रूप में, और शुद्ध रूप से मीटर अनुभव से, ADAM अच्छी तरह से करता है जहां अन्य लोग विफल होते हैं (उदाहरण विभाजन), हालांकि कमियां के बिना (अभिसरण मोनोटोन नहीं है)
एलेक्स

2
आदम को एकाग्र करने के लिए तेज है। SGD धीमा है लेकिन बेहतर सामान्य करता है। तो अंत में यह सब आपके विशेष परिस्थितियों पर निर्भर करता है।
अगकला

जवाबों:


13

यहाँ एक ब्लॉग पोस्ट की समीक्षा कर रहा है जिसमें दावा किया गया है कि एडीडीए से बेहतर सामान्यीकृत एडॉप्टर है। https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/

एक से अधिक विधि (एक पहनावा) का उपयोग करने के लिए अक्सर एक मूल्य होता है, क्योंकि हर विधि में एक कमजोरी होती है।


5

आपको इस पोस्ट को अलग-अलग ग्रेडिएंट डिसेंट ऑप्टिमाइज़र की तुलना में भी देखना चाहिए । जैसा कि आप नीचे देख सकते हैं कि आदम स्पष्ट रूप से कुछ कार्यों के लिए सबसे अच्छा आशावादी नहीं है क्योंकि कई बेहतर रूप से जुटे हैं।


सिर्फ रिकॉर्ड के लिए: लिंक किए गए लेख में वे ADAM की कुछ खामियों का उल्लेख करते हैं और AMSGrad को समाधान के रूप में प्रस्तुत करते हैं। हालांकि, वे यह निष्कर्ष निकालते हैं कि क्या AMSGrad आउटपरफॉर्म ADAM प्रथाओं में है (लेखन के समय) गैर-निर्णायक।
लूस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.