आपके द्वारा उल्लेखित पहले दो एल्गोरिदम (Nelder-Mead and Simulated Annealing) को आम तौर पर ऑप्टिमाइज़ेशन सर्कल में बहुत अधिक अप्रचलित माना जाता है, क्योंकि बहुत बेहतर विकल्प हैं जो अधिक विश्वसनीय और कम खर्चीली दोनों हैं। जेनेटिक एल्गोरिदम एक विस्तृत श्रृंखला को कवर करता है, और इनमें से कुछ उचित हो सकते हैं।
हालांकि, व्युत्पन्न-मुक्त अनुकूलन (DFO) एल्गोरिदम के व्यापक वर्ग में, कई ऐसे हैं जो इन "क्लासिक्स" से काफी बेहतर हैं, क्योंकि यह हाल के दशकों में अनुसंधान का एक सक्रिय क्षेत्र रहा है। तो, क्या इनमें से कुछ नए दृष्टिकोण गहरी शिक्षा के लिए उचित हो सकते हैं?
कला की स्थिति की तुलना करने वाला एक अपेक्षाकृत हालिया पेपर निम्नलिखित है:
रियोस, एलएम, और साहिनिडिस, एनवी (2013) व्युत्पन्न-मुक्त अनुकूलन: एल्गोरिदम की समीक्षा और सॉफ्टवेयर कार्यान्वयन की तुलना। ग्लोबल ऑप्टिमाइज़ेशन के जर्नल।
यह एक अच्छा पेपर है जिसमें हाल की तकनीकों में कई दिलचस्प अंतर्दृष्टि हैं। उदाहरण के लिए, परिणाम स्पष्ट रूप से दिखाते हैं कि क्रमिक द्विघात प्रोग्रामिंग (एसक्यूपी) के विभिन्न रूपों का उपयोग करते हुए सर्वश्रेष्ठ स्थानीय आशावादी सभी "मॉडल-आधारित" हैं ।
हालांकि, जैसा कि उनके सार में उल्लेख किया गया है "हम पाते हैं कि अच्छे समाधान प्राप्त करने के लिए इन सभी सॉल्वरों की क्षमता बढ़ती समस्या आकार के साथ कम हो जाती है।" संख्याओं का एक विचार देने के लिए, सभी समस्याओं के लिए सॉल्वरों को 2500 फ़ंक्शन मूल्यांकन का बजट दिया गया था, और समस्या का आकार अनुकूलन करने के लिए अधिकतम ~ 300 पैरामीटर थे। O [10] मापदंडों के अलावा, इनमें से बहुत से ऑप्टिमाइज़र ने बहुत अच्छा प्रदर्शन किया, और यहां तक कि सबसे अच्छे लोगों ने प्रदर्शन में ध्यान देने योग्य क्षय दिखाया क्योंकि समस्या का आकार बढ़ा हुआ था।
बहुत उच्च आयामी समस्याओं के लिए, DFO एल्गोरिदम सिर्फ व्युत्पन्न आधारित लोगों के साथ प्रतिस्पर्धी नहीं हैं। कुछ परिप्रेक्ष्य देने के लिए, पीडीई (आंशिक अंतर समीकरण) आधारित अनुकूलन एक और क्षेत्र है जिसमें बहुत अधिक आयामी समस्याएं हैं (उदाहरण के लिए एक बड़े 3 डी परिमित तत्व ग्रिड के प्रत्येक सेल के लिए कई पैरामीटर)। इस दायरे में, " सहायक विधि " सबसे अधिक उपयोग की जाने वाली विधियों में से एक है। यह एक फॉरवर्ड-डिसेंट ऑप्टिमाइज़र भी है जो एक फॉरवर्ड मॉडल कोड के स्वचालित भेदभाव पर आधारित है।
एक उच्च-आयामी DFO ऑप्टिमाइज़र का निकटतम शायद एनसेंबल कलमन फ़िल्टर है , जिसका उपयोग जटिल पीडीई सिमुलेशन, जैसे मौसम के मॉडल में डेटा को आत्मसात करने के लिए किया जाता है। दिलचस्प है, यह अनिवार्य रूप से एक एसक्यूपी दृष्टिकोण है, लेकिन बायेसियन-गॉसियन व्याख्या के साथ (इसलिए द्विघात मॉडल सकारात्मक निश्चित है, अर्थात कोई काठी बिंदु नहीं)। लेकिन मुझे नहीं लगता है कि इन अनुप्रयोगों में मापदंडों या टिप्पणियों की संख्या गहरी सीखने में देखी गई तुलना के बराबर है।
साइड नोट (स्थानीय मिनीमा): छोटे से मैंने गहरे सीखने पर पढ़ा है, मुझे लगता है कि आम सहमति यह है कि यह स्थानीय मिनीमा के बजाय काठी अंक है , जो उच्च आयामी एनएन-पैरामीटर रिक्त स्थान के लिए सबसे अधिक समस्याग्रस्त हैं।
उदाहरण के लिए, नेचर में हाल की समीक्षा कहती है "हाल के सैद्धांतिक और अनुभवजन्य परिणाम दृढ़ता से सुझाव देते हैं कि स्थानीय मिनीमाता सामान्य रूप से गंभीर मुद्दा नहीं है। इसके बजाय, परिदृश्य एक बड़े पैमाने पर बड़ी संख्या में काठी बिंदुओं के साथ पैक किया जाता है जहां ढाल शून्य है, और। सतह ज्यादातर आयामों में घटती है और शेष में घटती है। "
एक संबंधित चिंता स्थानीय बनाम वैश्विक अनुकूलन के बारे में है (उदाहरण के लिए यह प्रश्न टिप्पणियों में बताया गया है)। जबकि मैं गहरी सीख नहीं देता, मेरे अनुभव में निश्चित रूप से एक वैध चिंता है। मेरी राय में, वैश्विक अनुकूलन विधियां इंजीनियरिंग डिजाइन समस्याओं के लिए सबसे अनुकूल हैं जो दृढ़ता से "प्राकृतिक" डेटा पर निर्भर नहीं करती हैं। डेटा आत्मसात समस्याओं में, किसी भी मौजूदा वैश्विक न्यूनतम आसानी से नए डेटा के अलावा पर बदल सकता है (चेतावनी: मेरा अनुभव है जियोसाइंस समस्याओं, जहां डाटा आम तौर पर मॉडल क्षमता के लिए "विरल" रिश्तेदार है में केंद्रित)।
एक दिलचस्प परिप्रेक्ष्य शायद है
O. Bousquet & L. Bottou (2008) बड़े पैमाने पर सीखने का व्यापार। NIPS।
जो व्यवहार में अनुमानित अनुकूलन कब और क्यों पर अर्ध-सैद्धांतिक तर्क प्रदान करता है।
अंतिम नोट (मेटा-ऑप्टिमाइज़ेशन): जबकि धीरे- धीरे आधारित तकनीकें प्रशिक्षण नेटवर्क के लिए प्रभावी हो सकती हैं, संबद्ध मेटा-ऑप्टिमाइज़ेशन कार्यों में DFO के लिए एक भूमिका हो सकती है।
एक उदाहरण हाइपर-पैरामीटर ट्यूनिंग होगा। (दिलचस्प बात यह है कि Rios & Sahinidis के सफल मॉडल-आधारित DFO ऑप्टिमाइज़र को आवश्यक रूप से डिज़ाइन-ऑफ़-प्रयोगों / प्रतिक्रिया-सतह की समस्याओं के अनुक्रम को हल करने के रूप में देखा जा सकता है।)
लेयर्स के सेट-अप (उदाहरण संख्या, प्रकार, अनुक्रम, नोड्स / लेयर) के संदर्भ में एक और उदाहरण आर्किटेक्चर डिज़ाइन करना हो सकता है। इस असतत-अनुकूलन संदर्भ में आनुवंशिक-शैली के एल्गोरिदम अधिक उपयुक्त हो सकते हैं। ध्यान दें कि यहाँ मैं उस मामले के बारे में सोच रहा हूँ जहाँ कनेक्टिविटी का निर्धारण इन कारकों द्वारा किया जाता है (जैसे कि पूरी तरह से जुड़ी हुई परतें, दृढ़ परतें, आदि)। दूसरे शब्दों में कनेक्टिविटी स्पष्ट रूप से मेटा-अनुकूलित । (कनेक्शन की शक्ति प्रशिक्षण के अंतर्गत आती है, जहाँ उदाहरण के लिए नियमितीकरण और / या ReLU सक्रियणों द्वारा बढ़ावा दिया जा सकता है ... इन विकल्पों को मेटा-अनुकूलित किया जा सकता है।O[N2]notL1