हमेशा ADAM ऑप्टिमाइज़ेशन तकनीक का उपयोग क्यों नहीं किया जाता है?

14

यह अनुकूली क्षण अनुमान (एडम) लगता है ऑप्टिमाइज़र लगभग हमेशा बेहतर काम करता है (तेजी से और अधिक मज़बूती से एक वैश्विक न्यूनतम तक पहुँच) जब प्रशिक्षण तंत्रिका जाल में लागत समारोह को कम करता है।

हमेशा एडम का उपयोग क्यों नहीं किया जाता है? RMSProp या गति अनुकूलक का उपयोग करके भी परेशान क्यों?

neural-network optimization

— PyRsquared
स्रोत

1

मुझे विश्वास नहीं है कि कथन का समर्थन करने का कोई सख्त, औपचारिक तरीका है। यह सभी विशुद्ध रूप से अनुभवजन्य है, क्योंकि त्रुटि सतह अज्ञात है। अंगूठे के एक नियम के रूप में, और शुद्ध रूप से मीटर अनुभव से, ADAM अच्छी तरह से करता है जहां अन्य लोग विफल होते हैं (उदाहरण विभाजन), हालांकि कमियां के बिना (अभिसरण मोनोटोन नहीं है)

— एलेक्स

2

आदम को एकाग्र करने के लिए तेज है। SGD धीमा है लेकिन बेहतर सामान्य करता है। तो अंत में यह सब आपके विशेष परिस्थितियों पर निर्भर करता है।

— अगकला

13

यहाँ एक ब्लॉग पोस्ट की समीक्षा कर रहा है जिसमें दावा किया गया है कि एडीडीए से बेहतर सामान्यीकृत एडॉप्टर है। https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/

एक से अधिक विधि (एक पहनावा) का उपयोग करने के लिए अक्सर एक मूल्य होता है, क्योंकि हर विधि में एक कमजोरी होती है।

— क्रिस्टोफर क्लॉस
स्रोत

5

आपको इस पोस्ट को अलग-अलग ग्रेडिएंट डिसेंट ऑप्टिमाइज़र की तुलना में भी देखना चाहिए । जैसा कि आप नीचे देख सकते हैं कि आदम स्पष्ट रूप से कुछ कार्यों के लिए सबसे अच्छा आशावादी नहीं है क्योंकि कई बेहतर रूप से जुटे हैं।

सिर्फ रिकॉर्ड के लिए: लिंक किए गए लेख में वे ADAM की कुछ खामियों का उल्लेख करते हैं और AMSGrad को समाधान के रूप में प्रस्तुत करते हैं। हालांकि, वे यह निष्कर्ष निकालते हैं कि क्या AMSGrad आउटपरफॉर्म ADAM प्रथाओं में है (लेखन के समय) गैर-निर्णायक।

— लूस