नॉनलाइन प्रोग्रामिंग के लिए संवर्धित लैग्रैजियन से SQP बेहतर क्यों है?


9

गलहद [1] पर तकनीकी रिपोर्ट में, लेखक ने सामान्य nonlinear प्रोग्रामिंग समस्याओं के संदर्भ में,

हमारे दिमाग में, वास्तव में कभी संदेह नहीं किया गया था कि लंबी अवधि में SQP [क्रमिक द्विघात प्रोग्रामिंग] विधियाँ अधिक सफल होंगी [संवर्धित लैग्रैजियन विधियों की तुलना में] ...

उस विश्वास का आधार क्या हो सकता है? यानी, क्या कोई सैद्धांतिक परिणाम हैं जो सुझाव देते हैं कि एसक्यूपी विधियां संवर्धित लैग्रैजियन विधियों की तुलना में अधिक तेज़ / अधिक विश्वसनीय होनी चाहिए?

[१] गलहड़, ओरबन और टोनी द्वारा थ्रेड-सेफ फोरट्रान ९ ० पैकेज की एक लाइब्रेरी, बड़े पैमाने पर नॉनलाइनियर ऑप्टिमाइज़ेशन के लिए,

जवाबों:


2

SQP विधियों की आवश्यकता होती है कि उद्देश्य दो बार अलग-अलग हो (cf https://en.m.wikipedia.org/wiki/Sequential_quadratic_programming ) जबकि संवर्धित लैग्रैजियन तब भी काम करते हैं जब उद्देश्य उद्देश्यहीन हो (इसलिए छवि प्रसंस्करण समुदाय cf ftp में उनका हालिया पुनरुत्थान : //arachne.math.ucla.edu/pub/camreport/cam09-05.pdf )

मुझे गलाहड सॉफ़्टवेयर के बारे में नहीं पता है, लेकिन अगर इसे अलग-अलग अनुकूलन समस्याओं को हल करने के लिए माना जाता है, तो यह संभवतः एक विधि का उपयोग करके बेहतर होगा जो कि उद्देश्य फ़ंक्शन को अलग करने की अनुमति है।


यह सच नहीं है कि SQP को दो बार अलग-अलग उद्देश्य कार्यों की आवश्यकता होती है। आप बस एक विधि प्राप्त कर सकते हैं जिसमें अभिसरण की एक छोटी दर है यदि उद्देश्य फ़ंक्शन में कम भिन्नता है, लेकिन यह संवर्धित लैग्रैजियन विधियों के साथ बिल्कुल वैसा ही है।
वोल्फगैंग बैंगर्थ

2

बाहरी पुनरावृत्तियों के संदर्भ में, SQP को जीतना चाहिए क्योंकि इसमें दूसरी व्युत्पन्न जानकारी शामिल है, जबकि संवर्धित लैग्रेन्जियन विधियों जैसे ADMM नहीं है।

हालांकि, एक बात का ध्यान रखें कि इन तरीकों के लिए प्रत्येक पुनरावृत्ति में एक रैखिक प्रणाली को हल करना शामिल है, इसलिए निष्पक्ष तुलना करने के लिए आपको यह ध्यान रखना होगा कि इन प्रणालियों को हल करना कितना आसान है।

संवर्धित लैग्रेन्जियन (वैकल्पिक) तरीकों के लिए, प्रत्येक पुनरावृत्ति जिसे आप कुछ हल कर रहे हैं जैसे,

(ATA+ρI)x=b,
कहाँ पे A एक फ़ॉरवर्ड ऑपरेटर है जो सीधे उद्देश्य फ़ंक्शन से जाना जाता है और आमतौर पर पूर्ववर्ती या, और इससे निपटने के लिए आसान है ρपेनल्टी पैरामीटर है। (जैसे, आपकी समस्या हैminx||Axb||2 कुछ नियमितीकरण और बाधाओं के अधीन)।

SQP विधियों के लिए आप जैसे कुछ हल कर रहे हैं जहाँ , Hessian (या सन्निकटन) है जो आमतौर पर केवल वैक्टर पर कार्रवाई के संदर्भ में निहित रूप से उपलब्ध है, और ग्रेडिएंट है। हेसियन में न केवल , बल्कि अन्य मेट्रिसेस और मैट्रिक्स के संयोजन भी शामिल हैं जो बाधाओं और नियमितीकरण को रैखिक बनाने से आते हैं।

Hx=g,
HgA

पूर्ववर्ती Hessians एक बहुत ही मुश्किल काम है और आगे की समस्याओं को दूर करने की तुलना में बहुत कम अध्ययन किया गया है। एक मानक विधि एल-बीएफजीएस के साथ हेसियन व्युत्क्रम को अनुमानित करने के लिए है, लेकिन यह सीमित प्रभावशीलता की है जब हेसियन व्युत्क्रम उच्च-रैंक है। एक अन्य लोकप्रिय तरीका हेसियन को कम-रैंक मैट्रिक्स के योग के रूप में अनुमानित किया गया है, साथ ही एक आसान इनवर्टर मैट्रिक्स भी है, लेकिन इसमें कठिन समस्याओं के लिए सीमित प्रभावशीलता भी है। अन्य लोकप्रिय हेसियन आकलन तकनीक विरल सन्निकटन पर आधारित हैं, लेकिन निरंतरता की समस्याओं में अक्सर हेसियन होते हैं जिनमें खराब स्पार्स सन्निकटन होते हैं।


+1, हालाँकि मैं कंबल स्टेटमेंट्स के विरुद्ध सावधानी बरतना चाहता हूँ (जिससे मुझे विशेष रूप से इस उत्तर का मतलब नहीं है)। उदाहरण के लिए, PDE- विवश अनुकूलन में, को लागू करने में अक्सर एक nonlinear PDE को हल करना शामिल होता है, जबकि को दो रैखिक PDE को हल करके लागू किया जा सकता है - जो कि मूल PDE के गंदा होने पर काफी सस्ता (और पूर्व-आसान होना) हो सकता है। AH
क्रिश्चियन क्लैसन

तो, को दो PDE को हल करके लागू किया जा सकता है, लेकिन को लागू करने के लिए आपको अपने सॉल्वर में 2 PDEs प्रति kryolv चलना हल करना होगा । दूसरी तरफ एक आगे का ऑपरेटर है इसलिए यह आमतौर पर किसी भी PDE को हल नहीं करता है। आमतौर पर एक मैट्रिक्स को वास्तव में जानता है , उदाहरण के लिए, एक जाल पर 5 बिंदु परिमित अंतर स्टेंसिल। लिए पूर्वसैनिकों का उपयोग लिए पूर्व शर्त का निर्माण करने के लिए किया जा सकता है , लेकिन उन्हें पूर्ववर्ती लिए उपयोग करना कठिन है । HH1AAAATA+ρIH
निक अल्जीरिया

यदि रैखिक रैखिक ऑपरेटर है (जो कि nonlinear PDE-constrained ऑप्टिमाइज़ेशन में मामला नहीं है), तो आप निश्चित रूप से सही हैं। अन्यथा, को लागू करने के लिए न्यूटन पुनरावृत्ति (या निश्चित बिंदु पुनरावृत्ति) के लिए एक रैखिक पीडीई समाधान की आवश्यकता होती है , इसके बाद (जो हमेशा रैखिक होता है) के लिए और होता है। दोनों में से किस विधि के लिए कम कुल काम की आवश्यकता है (जैसे, रैखिक पीडीई सॉल्व की संख्या) विशिष्ट समस्या पर बहुत निर्भर करता है। अलग-अलग नौकरियों के लिए अलग-अलग उपकरण, यह सब मैं कह रहा हूं। AAAT
ईसाई क्लासन

मैं विभिन्न नौकरियों के लिए विभिन्न उपकरणों के बारे में सहमत हूं। PDE के लिए गॉस-न्यूटन हेसियन ने समस्या को ध्यान में रखा है - ऐसे कि - , और पूर्ण Hessian यह प्लस अन्य शब्द है। तो यहाँ में दो व्युत्क्रम होते हैं और में दो व्युत्क्रम होते हैं। minq,u12||Cuy||2+α2||Rq||2Au=qH=ATCTCA1+αRTRHH1
निक अल्जीरिया

और मैं बाधा था मन में (जैसे, नक्शे समाधान के लिए के , जो पैरामीटर पहचान या टोपोलॉजी अनुकूलन में दिखाई देता है)। S(q)=uSqu(qu)=f
क्रिश्चियन क्लैसन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.