जैसा कि जेड ब्राउन ने उल्लेख किया है, नॉनलाइनियर ऑप्टिमाइज़ेशन में ग्रेडिएंट डिसेंट के बीच कनेक्शन और डायनेमिक सिस्टम को समय पर कदम रखने से कुछ आवृत्ति के साथ फिर से खोजा जाता है (जाहिर है, क्योंकि यह गणितीय मन से बहुत संतोषजनक कनेक्शन है क्योंकि यह दो अलग-अलग क्षेत्रों को जोड़ता है)। हालांकि, यह शायद ही कभी एक उपयोगी संबंध बन जाता है, विशेष रूप से आपके द्वारा वर्णित संदर्भ में।
उलटा समस्याओं में, लोगों को (बीमार उत्पन्न) ऑपरेटर समीकरण को हल करने में रुचि रखने वाले कर रहे हैं के साथ की सीमा में नहीं । (आपकी इष्टतम नियंत्रण समस्या को और । के साथ इसके एक उदाहरण के रूप में देखा जा सकता है ।) कई नियमितीकरण रणनीतियों (जैसे कि Tikhonov या Landweber) को एक छद्म समय के रूप में व्याख्या किया जा सकता है। एक निश्चित वर्ग का कदम। तब यह विचार है कि पैरामीटर के लिए कुछ (अनुकूली, एक पश्च) विकल्प नियमों को प्राप्त करने के लिए नियमितीकरण पैरामीटर की व्याख्या का उपयोग चरण लंबाई के रूप में किया जाता है - व्युत्क्रम समस्याओं में एक मौलिक समस्या - और संभवतः कई छद्म समय चरणों को बनाने के लिए। सही, अनियमित समाधान (इसी तरह) के लिए संपर्क करेंy δ एफ एफ = एक - 1 y δ = y 0F( यू ) =yδyδएफएफ= ए- 1yδ=y0संख्यात्मक निरंतरता )। इसे कभी-कभी निरंतर नियमितीकरण कहा जाता है , और आमतौर पर स्तर सेट विधियों के संदर्भ में चर्चा की जाती है; उदाहरण के लिए, Kaltenbacher, Scherzer, Neubauer का अध्याय 6.1, Nonlinear Ill-Posed Problems (de Gruyter, 2008) के लिए Iterative Regularization Methods ।
एक दूसरा संदर्भ यह विचार बार-बार क्रॉप करता है कि अनुकूलन है: यदि आप ,
लिए एक वंश चरण
तो आप इसे डायनेमिक सिस्टम लिए आगे यूलर स्टेप के
रूप में व्याख्या कर सकते हैं
जैसा कि जेड ब्राउन ने कहा, यह पहली नज़र में केवल बहुत ही आश्चर्यजनक अवलोकन नहीं देता है जो इस पद्धति को परिवर्तित करता है, बशर्ते कि छद्म समय के चरण काफी छोटे हैं। दिलचस्प हिस्सा तब आता है जब आप गतिशील प्रणाली को देखते हैं और अपने आप से पूछते हैं कि तथाकथित ढाल प्रवाह के निरंतर समाधान के क्या गुण हैंएक्स कश्मीर + 1 = एक्स कश्मीर - γ कश्मीर ∇ च ( एक्स कश्मीर ) , ˙ एक्स ( टी ) = - ∇ च ( एक्स ( टी ) ) ,minxf(x)
एक्सके + १= एक्सक- γक∇ च( x)क) ,
γ k x ( t )एक्स˙( t ) = - ∇ f( x ( t ) ) ,x ( 0 ) = x0।
γकx ( t )(या होना चाहिए), ढाल वंश से स्वतंत्र है, और है कि मानक Euler की तुलना में अधिक उपयुक्त समय कदम (और इसलिए अनुकूलन) के तरीकों के लिए नेतृत्व नहीं हो सकता है। मेरे सिर के ऊपर से कुछ उदाहरण:
क्या एक प्राकृतिक कार्य स्थान है जिसमें ढाल प्रवाह रहता है? यदि ऐसा है, तो आपके ग्रेडिएंट कदम को उसी स्थान से लिया जाना चाहिए (यानी, विवेकाधिकार अनुरूप होना चाहिए)। यह, उदाहरण के लिए, विभिन्न आंतरिक उत्पादों (कभी-कभी सोबोलेव ग्रेडिएटर्स कहा जाता है ) के संबंध में रेज़ेज़ के अभ्यावेदन की गणना करने के लिए , और व्यवहार में, पूर्वगामी पुनरावृत्तियों के लिए जो बहुत तेज़ी से परिवर्तित होते हैं।
हो सकता है कि का संबंध किसी सदिश स्थान से नहीं, बल्कि कई गुना (जैसे, सममित सकारात्मक निश्चित मैट्रिक्स) से हो, या क्रमिक प्रवाह से का एक निश्चित मानदंड संरक्षित होना चाहिए । इस मामले में, आप संरचना-संरक्षण टाइम-स्टेपिंग योजनाओं को लागू करने का प्रयास कर सकते हैं (उदाहरण के लिए, एक उपयुक्त लाई समूह या एक ज्यामितीय इंटीग्रेटर के संबंध में पुल-बैक शामिल करना)।एक्सएक्सएक्स
यदि अलग नहीं है, लेकिन उत्तल है, तो आगे का Euler कदम एक सबग्रेडिएंट डिसेंट विधि से मेल खाता है जो स्टेप साइज प्रतिबंध के कारण बहुत धीमा हो सकता है। दूसरी ओर, एक निहित यूलर कदम समीपस्थ बिंदु विधि से मेल खाता है , जिसके लिए इस तरह के कोई प्रतिबंध लागू नहीं होते हैं (और जो इस प्रकार बहुत लोकप्रिय हो गए हैं, जैसे, छवि प्रसंस्करण)।च
एक समान नस में, ऐसे तरीकों को एक्सट्रपलेशन चरणों द्वारा काफी तेज किया जा सकता है। इनको प्रेरित करने का एक तरीका यह है कि मानक प्रथम-क्रम विधियाँ कई छोटे कदमों को न्यूनतम करने के करीब लाने से ग्रस्त हैं, क्योंकि ढाल दिशाओं "दोलन" (मानक चित्रण के लिए क्यों संयुग्म ग्रेडिएटर्स स्टीपेस्ट डिसेंट करते हैं)। इसे , कोई पहले क्रम की डायनेमिक प्रणाली को हल न करके पुनरावृत्ति को "कम" कर सकता है, लेकिन एक दूसरे क्रम वाले सिस्टम:
उपयुक्त रूप से चुने गए लिए । उचित विवेक के साथ, यह एक पुनरावृत्ति ( पॉलिक की भारी गेंद विधि के रूप में जाना जाता है ) की ओर जाता है
ए1एक्स¨( t ) + ए2एक्स˙( t ) = - ∇ f( एक्स ( टी ) )
ए1, ए2एक्सके + १= एक्सक- γक∇ च( x)क) + αक( x)क- एक्सके - १)
(साथ के आधार पर )। समरूप बिंदु तरीकों के लिए समान विचार मौजूद हैं, उदाहरण के लिए, पेपर http://arxiv.org/pdf/1403.3522.pdf डिर्क लोरेंज और थॉमस पॉक द्वारा।γक, αकए1, ए2
(मुझे अपने ज्ञान में इसे जोड़ना चाहिए, इनमें से ज्यादातर मामलों में एक गतिशील प्रणाली के रूप में व्याख्या व्युत्पत्ति या एल्गोरिथ्म के अभिसरण प्रमाण के लिए कड़ाई से आवश्यक नहीं थी; कोई यह तर्क दे सकता है कि "निहित बनाम स्पष्ट" या लाई डेरिवेटिव जैसे विचार वास्तव में डायनेमिक सिस्टम या ग्रेडिएंट डीसेंट मेथड्स की तुलना में अधिक मौलिक हैं। फिर भी, किसी समस्या को देखने के लिए किसी अन्य दृष्टिकोण को देखने के लिए कभी भी दर्द नहीं होता है।)
संपादित करें: मैं सिर्फ दूसरे संदर्भ से एक उत्कृष्ट उदाहरण पर ठोकर खाई, जहां ODE व्याख्या का उपयोग नस्टेरोव के एक्सट्रैग्रैडिएंट विधि के गुणों को कम करने और सुधार का सुझाव देने के लिए किया जाता है:
http://arxiv.org/pdf/1503.01243.pdf
(ध्यान दें कि यह भी है) जेड ब्राउन के बिंदु का एक उदाहरण, जिसमें लेखक अनिवार्य रूप से पॉलीक के एल्गोरिथ्म के बारे में पता चले बिना ऊपर के बिंदु 4 को फिर से खोज लेते हैं।)
EDIT 2: और एक संकेत के रूप में कि आप इसे कितनी दूर ले जा सकते हैं, http://arxiv.org/pdf/1509.03616v1.pdf के पेज 5 देखें ।