यह अनुकूली क्षण अनुमान (एडम) लगता है ऑप्टिमाइज़र लगभग हमेशा बेहतर काम करता है (तेजी से और अधिक मज़बूती से एक वैश्विक न्यूनतम तक पहुँच) जब प्रशिक्षण तंत्रिका जाल में लागत समारोह को कम करता है।
हमेशा एडम का उपयोग क्यों नहीं किया जाता है? RMSProp या गति अनुकूलक का उपयोग करके भी परेशान क्यों?