मैं डीप लर्निंग के लिए एडम ऑप्टिमाइज़र के बारे में पढ़ रहा था और बेंगियो, गुडफेलो और कोर्टविल की नई किताब डीप लर्निंग में निम्नलिखित वाक्य आया :
एडम को आमतौर पर हाइपर मापदंडों के चुनाव के लिए काफी मजबूत माना जाता है, हालांकि सीखने की दर को कभी-कभी सुझाए गए डिफ़ॉल्ट से बदलना पड़ता है।
यदि यह सच है तो यह एक बड़ी बात है क्योंकि हाइपर पैरामीटर खोज वास्तव में महत्वपूर्ण हो सकती है (कम से कम मेरे अनुभव में) एक गहन शिक्षण प्रणाली के सांख्यिकीय प्रदर्शन में। इस प्रकार, मेरा सवाल यह है कि एडम रोबस्ट इतने महत्वपूर्ण मापदंडों में क्यों है? विशेष रूप से और ?
मैंने एडम पेपर पढ़ा है और यह उन मापदंडों के साथ काम करने या इसके मजबूत होने पर कोई स्पष्टीकरण नहीं देता है। क्या वे उस अन्यत्र को सही ठहराते हैं?
इसके अलावा, जैसा कि मैंने कागज पढ़ा है, ऐसा लगता है कि हाइपर मापदंडों की संख्या जहां उन्होंने बहुत छोटा करने की कोशिश की, केवल 2 और 2 के लिए केवल 3. यह पूरी तरह से अनुभवजन्य अध्ययन कैसे हो सकता है यदि यह केवल 2x3 हाइपर मापदंडों पर काम करता है ?β 2