[नोट ५ अप्रैल २०१ ९: कई नए परिणामों के साथ पेपर का एक नया संस्करण arXiv पर अपडेट किया गया है। हम मोमेंटम और एनएजी के बैकट्रैकिंग संस्करणों को भी पेश करते हैं, और बैकग्राउंडिंग ग्रैडेंट के लिए उसी धारणा के तहत अभिसरण को साबित करते हैं।
स्रोत कोड लिंक पर GitHub पर उपलब्ध हैं: https://github.com/hank-nguyen/MBT-optimizer
हमने DNN पर आवेदन करने के लिए एल्गोरिदम में सुधार किया, और अत्याधुनिक एल्गोरिदम जैसे MMT, NAG, एडम, एडमैक्स, अडाग्राद, से बेहतर प्रदर्शन प्राप्त किया ...
हमारे एल्गोरिदम की सबसे विशेष विशेषता यह है कि वे स्वचालित हैं, आपको सामान्य अभ्यास के रूप में सीखने की दरों के मैनुअल फाइन-ट्यूनिंग करने की आवश्यकता नहीं है। हमारी स्वचालित फाइन-ट्यूनिंग प्रकृति में एडम, एडमैक्स, एडग्राड, ... आदि से भिन्न है। अधिक विवरण कागज में हैं।
]
बहुत हाल के परिणामों के आधार पर: इस पेपर में मेरे संयुक्त काम में https://arxiv.org/abs/1808.05160
हमने दिखाया कि बैकग्राउंडिंग ग्रैडिएंट डिसेंट, जब एक मनमाना C ^ 1 फंक्शन लागू किया जाता है, तो केवल काउंटेबल नंबर की एक महत्वपूर्ण संख्या के साथ, हमेशा या तो एक क्रिटिकल पॉइंट में परिवर्तित हो जाएगा या इन्फिनिटी में बदल जाएगा। यह स्थिति सामान्य फ़ंक्शन के लिए संतुष्ट है, उदाहरण के लिए सभी मोर्स फ़ंक्शन के लिए। हमने यह भी दिखाया कि सीमा बिंदु के लिए एक काठी बिंदु होना बहुत दुर्लभ है। इसलिए यदि आपके सभी महत्वपूर्ण बिंदु गैर-पतित हैं, तो एक निश्चित अर्थ में सीमा बिंदु सभी न्यूनतम हैं। [कृपया मानक ढाल मूल के मामले में ज्ञात परिणामों के लिए उद्धृत पेपर में संदर्भ भी देखें।]f
उपरोक्त के आधार पर, हमने गहन शिक्षण में एक नई पद्धति का प्रस्ताव किया जो वर्तमान अत्याधुनिक विधियों के बराबर है और इसे सीखने की दरों के मैनुअल फाइन-ट्यूनिंग की आवश्यकता नहीं है। ( संक्षेप में , विचार यह है कि आप एक निश्चित मात्रा में बैकग्राउंडिंग ग्रेडिएंट डिसेंट को चलाते हैं, जब तक कि आप यह नहीं देख लेते कि सीखने की दर, जो प्रत्येक पुनरावृत्ति के साथ बदल जाती है, स्थिर हो जाती है। हम इस स्थिरीकरण की अपेक्षा करते हैं, विशेष रूप से एक महत्वपूर्ण बिंदु पर)। C ^ 2 और गैर-पतित है, क्योंकि मैंने ऊपर दिए गए अभिसरण परिणाम के कारण। उस बिंदु पर, आप मानक ढाल मूल विधि पर स्विच करते हैं। कृपया अधिक विवरण के लिए उद्धृत पेपर देखें। यह विधि अन्य इष्टतम एल्गोरिदम पर भी लागू की जा सकती है। ।)
पुनश्च मानक ढाल वंश विधि के बारे में आपके मूल प्रश्न के बारे में, मेरे ज्ञान में केवल उस मामले में जहां मानचित्र का व्युत्पन्न विश्व स्तर पर लिप्सचित्ज़ है और सीखने की दर काफी कम है कि मानक ढाल वंश विधि अभिसरण करने के लिए सिद्ध होती है। [अगर ये स्थितियां संतुष्ट नहीं हैं, तो सरल प्रति-उदाहरण हैं जो दिखाते हैं कि कोई अभिसरण परिणाम संभव नहीं है, कुछ के लिए उद्धृत पेपर देखें।] ऊपर उल्लिखित कागज में, हमने तर्क दिया कि लंबे समय में बैकग्राउंडिंग ग्रेडिएंट डिसेंट विधि बन जाएगी। मानक ढाल मूल विधि, जो यह बताती है कि मानक ढाल वंश विधि आमतौर पर व्यवहार में अच्छी तरह से क्यों काम करती है।