क्या कारण है कि एडम ऑप्टिमाइज़र को अपने उच्च मापदंडों के मूल्य के लिए मजबूत माना जाता है?


24

मैं डीप लर्निंग के लिए एडम ऑप्टिमाइज़र के बारे में पढ़ रहा था और बेंगियो, गुडफेलो और कोर्टविल की नई किताब डीप लर्निंग में निम्नलिखित वाक्य आया :

एडम को आमतौर पर हाइपर मापदंडों के चुनाव के लिए काफी मजबूत माना जाता है, हालांकि सीखने की दर को कभी-कभी सुझाए गए डिफ़ॉल्ट से बदलना पड़ता है।

यदि यह सच है तो यह एक बड़ी बात है क्योंकि हाइपर पैरामीटर खोज वास्तव में महत्वपूर्ण हो सकती है (कम से कम मेरे अनुभव में) एक गहन शिक्षण प्रणाली के सांख्यिकीय प्रदर्शन में। इस प्रकार, मेरा सवाल यह है कि एडम रोबस्ट इतने महत्वपूर्ण मापदंडों में क्यों है? विशेष रूप से और ?β1β2

मैंने एडम पेपर पढ़ा है और यह उन मापदंडों के साथ काम करने या इसके मजबूत होने पर कोई स्पष्टीकरण नहीं देता है। क्या वे उस अन्यत्र को सही ठहराते हैं?

इसके अलावा, जैसा कि मैंने कागज पढ़ा है, ऐसा लगता है कि हाइपर मापदंडों की संख्या जहां उन्होंने बहुत छोटा करने की कोशिश की, केवल 2 और 2 के लिए केवल 3. यह पूरी तरह से अनुभवजन्य अध्ययन कैसे हो सकता है यदि यह केवल 2x3 हाइपर मापदंडों पर काम करता है ?β 2β1β2


1
पुस्तक के लेखकों के लिए एक ईमेल भेजें जिसने दावा किया था। उनसे पूछें कि दावा किस पर आधारित है।
मार्क एल। स्टोन

1
@ MarkL.Stone उन्होंने केवल यह कहा कि उन्होंने यह कहा क्योंकि अमूर्त ने यह कहा। मुश्किल से एक ठोस तर्क। शायद अगली बार मैं वास्तविक पेपर के लेखकों को ई-मेल करूंगा।
चार्ली पार्कर

7
और इसलिए आत्म-प्रचार तथ्य बन जाता है।
मार्क एल। स्टोन

@ मार्कएल। अपने बचाव में, वह ठीक से जवाब देने के लिए व्यस्त हो सकता है और मैंने केवल 3 लेखकों में से 1 से संपर्क किया है। हो सकता है कि मैं दूसरों से संपर्क कर सकूं लेकिन मुझे यकीन नहीं है कि वे दिए गए (कम से कम) उत्तर देंगे कि एक प्रोफेसर है। डीएल I में शर्त के साथ वह प्रतिदिन 300 ई-मेल प्राप्त करता है।
चार्ली पार्कर

7
अब जब पुस्तक बाहर हो गई है, तो एडम लेखकों ने इस बात की पुष्टि की है कि उनका एल्गोरिथ्म कितना महान है। '89 बे एरिया भूकंप की याद दिलाता है। समाचार रेडियो स्टेशन ने राजमार्ग के ढहने पर # जानलेवा हमले की अपुष्ट रिपोर्ट बनाई - कहा कि वे राज्यपाल के कार्यालय से पुष्टि की मांग कर रहे थे। तब उन्हें फोन पर गवर्नर मिला और पूछा गया कि क्या वह # जानलेवा हमले की पुष्टि कर सकते हैं। उसने कहा कि उसने जो सुना है। रेडियो स्टेशन ने तब सूचना दी कि उन्हें अब राज्यपाल से पुष्टि मिली है। यह पता चला है कि गवर्नर का मतलब था कि उन्होंने इसे सुना, जैसा कि यह उस रेडियो स्टेशन पर है। तो, परिपत्र पुष्टि।
मार्क एल। स्टोन

जवाबों:


7

दावे के संबंध में सबूतों के संबंध में, मेरा मानना ​​है कि दावे का समर्थन करने वाले एकमात्र सबूत उनके पेपर में आंकड़ा 4 पर पाए जा सकते हैं । वे अलग-अलग मान की एक श्रृंखला के अंतर्गत अंतिम परिणाम बताते हैं , β 2 और αβ1β2α

व्यक्तिगत रूप से, मैं उनके तर्क को विशेष रूप से आश्वस्त नहीं करता, क्योंकि वे विभिन्न समस्याओं के परिणाम पेश नहीं करते हैं। इसके साथ ही कहा, मैं नोट करेंगे कि मैं समस्याओं की एक किस्म के लिए इस्तेमाल किया एडम है, और मेरी व्यक्तिगत खोज है कि के मूलभूत मूल्यों है और β 2 है आश्चर्यजनक रूप से विश्वसनीय लगते हैं, हालांकि साथ नगण्य का एक अच्छा सौदा α की आवश्यकता है।β1β2 α


5

β1β2

यह स्टॉक वेनिला स्टोचस्टिक ग्रेडिएंट डिसेंट के साथ बहुत विपरीत है, जहां:

  • सीखने की दर प्रति पैरामीटर नहीं हैं, लेकिन एक एकल, वैश्विक सीखने की दर है, जिसे सभी मापदंडों के बीच कुंद रूप से लागू किया जाता है
    • (वैसे, यह एक कारण है कि डेटा को अक्सर सफेद किया जाता है, सामान्य किया जाता है, इसे नेट में भेजे जाने से पहले, आदर्श प्रति-पैरामीटर भार को समान-ईश रखने की कोशिश करने के लिए)
  • प्रदान की गई सीखने की दर सटीक सीखने की दर है, और समय के साथ अभ्यस्त नहीं है

अनुकूली सीखने की दरों के साथ एडम एकमात्र आशावादी नहीं है। जैसा कि एडम पेपर बताता है, यह अडाग्राद और रम्सप्रॉप से ​​संबंधित है, जो हाइपरपैरेटर्स के लिए बेहद असंवेदनशील हैं। विशेष रूप से, Rmsprop काफी अच्छी तरह से काम करता है।

लेकिन एडम सामान्य रूप से सबसे अच्छा है। बहुत कम अपवादों के साथ आदम वह करेगा जो आप चाहते हैं :)

कुछ काफी रोगजन्य मामले हैं जहां एडम काम नहीं करेगा, विशेष रूप से कुछ बहुत ही गैर-स्थिर वितरण के लिए। इन मामलों में, Rmsprop एक उत्कृष्ट स्टैंडबाय विकल्प है। लेकिन आम तौर पर, अधिकांश गैर-रोग संबंधी मामलों के लिए, एडम बहुत अच्छी तरह से काम करता है।


1
β1,β2

हां, अगर आपका मतलब है, 'यहाँ एक शोध करने का अवसर है क्यों?', ठीक है ... शायद।
ह्यूग पर्किन्स

2
यह एक "गहरा सवाल" नहीं है। ऐसा लगता है कि यह कागज के सबसे महत्वपूर्ण बिंदु में से एक है, नहीं? पूरे बिंदु यह है कि यह "अपने आप" चीजों को करता है लेकिन फिर ये अन्य हाइपरपैरमीटर हैं जो जादुई रूप से मजबूत प्रतीत होते हैं। मेरे पास यह मुद्दा है। यह मुझे कागज के मूल से संबंधित प्रतीत होता है जब तक कि मुझे एडम की बात गलत नहीं लगी।
चार्ली पार्कर

"कुछ काफी रोग संबंधी मामले हैं जहाँ एडम काम नहीं करेगा, विशेष रूप से कुछ बहुत ही गैर-स्थिर वितरण के लिए।" <- यहां कोई संदर्भ?
मिमोरिया

0

ADAM फॉर्मूलों को देखते हुए, यह थोड़ा हैरान करने वाला लगता है कि बहुत अधिक संख्या में बैच पुनरावृत्तियों के बाद (कहते हैं ~ 400k) की परिमाण, मूल त्रुटि के आधार पर, ग्रेडिएंट स्वयं ही ~ उठाए गए कदम में कोई वास्तविक भूमिका नहीं निभाता है जो आकांक्षा के लिए लगता है प्रासंगिक संकेत में सीखने की दर विन्यास पैरामीटर।
शायद ADAM पहले पुनरावृत्तियों / युगों के दौरान सरल SGD की तुलना में वजन के अनुकूलन को बेहतर ढंग से नियंत्रित करता है, लेकिन आगे जा रहा है कि अपडेट कुछ भोली (कुछ?) के लिए कम हो जाता है क्या कोई इस बात पर कुछ अंतर्ज्ञान प्रदान कर सकता है कि वास्तव में वांछित क्यों है और / या अच्छी तरह से काम करता है?


वास्तव में ऐसा लगता है कि त्रुटि आधारित ग्रेडिएंट परिमाण स्वयं एक वास्तविक भूमिका नहीं निभाता है यहां तक ​​कि शुरुआत भी नहीं करता है। सवाल यह है कि इस तरह के सामान्यीकरण अच्छी तरह से क्यों काम कर रहे हैं, और यह डीएल और अन्य सामान्य शिक्षण मॉडल के मार्गदर्शक जीडी अंतर्ज्ञान के बारे में क्या कहता है?
डैनी रोसेन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.