उत्तल अनुकूलन में द्वितीय-क्रम डेरिवेटिव उपयोगी क्यों हैं?

18

मुझे लगता है कि यह एक बुनियादी सवाल है और इसे ग्रेडिएंट की दिशा के साथ ही करना है, लेकिन मैं ऐसे उदाहरणों की तलाश कर रहा हूं, जहां 2 क्रम विधियां (जैसे बीएफजीएस ) सरल ढाल वंश की तुलना में अधिक प्रभावी हैं।

optimization

— बार
स्रोत

3

क्या यह निरीक्षण करना बहुत सरल है कि "एक पैराबोलाइड के शीर्ष को ढूंढें" "इस रैखिक फ़ंक्शन के न्यूनतम को खोजने की तुलना में" एक न्यूनतम "समस्या खोजने के लिए एक बहुत बेहतर सन्निकटन है (जो निश्चित रूप से, कोई न्यूनतम नहीं है क्योंकि यह है रैखिक)?

20

यहां ग्रेडिएंट डिसेंट और न्यूटन की विधि दोनों की व्याख्या करने के लिए एक सामान्य रूपरेखा है, जो @ साइकोरैक्स के उत्तर के पूरक के रूप में अंतर के बारे में सोचने का एक उपयोगी तरीका है। (बीएफजीएस ने न्यूटन की विधि का अनुमान लगाया है; मैं इसके बारे में विशेष रूप से यहां बात नहीं करूंगा।)

हम फ़ंक्शन कम कर रहे हैं , लेकिन हम यह नहीं जानते कि सीधे कैसे करें। इसलिए, इसके बजाय, हम अपने वर्तमान बिंदु पर एक स्थानीय सन्निकटन लेते हैं और इसे कम करते हैं। $f$ $x$

न्यूटन की विधि एक दूसरे क्रम के टेलर विस्तार का उपयोग करके फ़ंक्शन का अनुमान : जहां की ढाल को दर्शाता है बिंदु पर और में हेस्सियन । यह तब और दोहराता है।

f (y) \approx N_{x} (y) := f (x) + \nabla f (x)^{T} (y - x) + \frac{1}{2} (y - x)^{T} \nabla^{2} f (x) (y - x),

$f(y) \approx N_x(y) := f(x) + \nabla f(x)^T (y - x) + \tfrac12 (y - x)^T \, \nabla^2 f(x) \, (y - x) ,$

\nabla f (x)

$\nabla f(x)$

f

$f$

x

$x$

\nabla^{2} f (x)

$\nabla^2 f(x)$

x

$x$

\arg min_{y} N_{x} (y)

$\arg\min_y N_x(y)$

ग्रेडिएंट डिसेंट, केवल ग्रेडिएंट और हेसियन नहीं, केवल प्रथम-ऑर्डर सन्निकटन नहीं बना सकता है और इसे कम से कम कर सकता है, क्योंकि @Hurkyl ने उल्लेख किया है कि इसमें कोई न्यूनतम नहीं है। इसके बजाय, हम एक स्टेप साइज और स्टेप टू को परिभाषित करते हैं । लेकिन ध्यान दें कि इस प्रकार ग्रेडिएंट वंश एक फ़ंक्शन $t$ $x - t \nabla f(x)$

\begin{aligned} x - t \nabla f (x) & = \arg max_{y} [f (x) + \nabla f (x)^{T} (y - x) + \frac{1}{2 t} ‖ y - x ‖^{2}] \\ = \arg max_{y} [f (x) + \nabla f (x)^{T} (y - x) + \frac{1}{2} (y - x)^{T} \frac{1}{t} I (y - x)] . \end{aligned}

$\begin{align} x - t \,\nabla f(x) &= \arg\max_y \left[f(x) + \nabla f(x)^T (y - x) + \tfrac{1}{2 t} \lVert y - x \rVert^2\right] \\&= \arg\max_y \left[f(x) + \nabla f(x)^T (y - x) + \tfrac12 (y-x)^T \tfrac{1}{t} I (y - x)\right] .\end{align}$

G_{x} (y) := f (x) + \nabla f (x)^{T} (y - x) + \frac{1}{2} (y - x)^{T} \frac{1}{t} I (y - x) .

$G_x(y) := f(x) + \nabla f(x)^T (y - x) + \tfrac12 (y-x)^T \tfrac{1}{t} I (y - x).$

इस प्रकार ढाल वंश न्यूटन की विधि का उपयोग कर की तरह की तरह है, लेकिन इसके बजाय दूसरे क्रम टेलर विस्तार लेने का, हम दिखावा कि हेस्सियन है । यह अक्सर तुलना में लिए एक बहुत खराब स्थिति है , और इसलिए ढाल वंश अक्सर न्यूटन की विधि की तुलना में बहुत खराब कदम उठाता है। बेशक, यह असंतुलित है, न्यूटन की विधि के प्रत्येक चरण की तुलना में ढाल वंश के प्रत्येक चरण को गणना करने के लिए इतना सस्ता है। जो बेहतर है वह पूरी तरह से समस्या की प्रकृति, आपके कम्प्यूटेशनल संसाधनों और आपकी सटीकता की आवश्यकताओं पर निर्भर करता है। $\tfrac1t I$ $G$ $f$ $N$

को देखते हुए @ सिसोरैक्स के उदाहरण एक द्विघात को न्यूनतम करने के एक पल के लिए, यह देखते हुए यह की कीमत है कि इस परिप्रेक्ष्य दोनों तरीकों को समझने के साथ मदद करता है।

च (एक्स) = \frac{1}{2} {एक्स}^{टी} ए एक्स + घ^{टी} एक्स + सी

$f(x) = \tfrac12 x^T A x + d^T x + c$

न्यूटन की विधि के साथ, हमारे पास ताकि यह एक ही चरण में सटीक उत्तर (फ्लोटिंग पॉइंट सटीकता के मुद्दों तक) के साथ समाप्त हो जाए। $N = f$

दूसरी ओर, वंश, जिसका पर स्पर्शरेखा तल है सही है, लेकिन जिनकी वक्रता पूरी तरह से गलत है, और वास्तव में अलग-अलग दिशाओं में महत्वपूर्ण अंतरों को दूर फेंकता है जब के आइजनवेल्यू अलग-अलग होते हैं।

G_{x} (y) = f (x) + (A x + d)^{T} y + \frac{1}{2} (x - y)^{T} \frac{1}{t} I (x - y)

$G_x(y) = f(x) + (A x + d)^T y + \tfrac12 (x - y)^T \tfrac1t I (x-y)$

x

$x$

A

$A$

— Dougal
स्रोत

1

यह @ अक्षल के उत्तर के समान है , लेकिन अधिक गहराई में।

— डगल

1

(+1) यह एक बढ़िया अतिरिक्त है!

— साइकोरैक्स का कहना है कि मोनिका

17

अनिवार्य रूप से, न्यूटन की विधि की तरह दूसरी व्युत्पन्न पद्धति का लाभ यह है कि इसमें द्विघात समाप्ति की गुणवत्ता है। इसका मतलब है कि यह एक परिमित संख्या में चरणों की संख्या को कम कर सकता है। ग्रेडिएंट डिसेंट की तरह एक विधि सीखने की दर पर बहुत अधिक निर्भर करती है, जिसके कारण अनुकूलन या तो धीरे-धीरे परिवर्तित हो सकता है क्योंकि यह इष्टतम के आसपास उछल रहा है, या पूरी तरह से विचलन करने के लिए है। स्थिर सीखने की दर मिल सकती है ... लेकिन हेसियन की गणना करना शामिल है। यहां तक कि एक स्थिर सीखने की दर का उपयोग करते समय, आपके पास इष्टतम के आसपास दोलन जैसी समस्याएं हो सकती हैं, यानी आप हमेशा न्यूनतम के लिए "प्रत्यक्ष" या "कुशल" मार्ग नहीं लेंगे। तो यह समाप्त करने के लिए कई पुनरावृत्तियों को ले सकता है, भले हीआप इसके अपेक्षाकृत करीब हैं। बीएफजीएस और न्यूटन की विधि अधिक तेज़ी से अभिसरण कर सकती है भले ही प्रत्येक चरण का कम्प्यूटेशनल प्रयास अधिक महंगा हो।

उदाहरण के लिए आपके अनुरोध के लिए: मान लीजिए कि आपके पास ऑब्जेक्टिव फंक्शन ग्रेडिएंट है और डाल रहा है निरंतर सीखने की दर साथ सबसे कम मूल रूप में

F (x) = \frac{1}{2} x^{T} A x + d^{T} x + c

$F(x)=\frac{1}{2}x^TAx+d^Tx+c$

\nabla F (x) = A x + d

$\nabla F(x)=Ax+d$

x_{k + 1} = x_{k} - α (A x_{k} + d) = (I - α A) x_{k} - α d .

$x_{k+1}= x_k-\alpha(Ax_k+d) = (I-\alpha A)x_k-\alpha d.$

यह स्थिर होगा यदि के ईजीनवेक्टर्स की परिमाण 1. से कम है। हम इस संपत्ति का उपयोग यह दिखाने के लिए कर सकते हैं कि एक स्थिर सीखने की दर जहाँ का सबसे बड़ा है । सबसे बड़ी वंशावली एल्गोरिथ्म की अभिसरण दर सबसे बड़े आइगेनवैल्यू द्वारा सीमित है और दिनचर्या अपने संबंधित आइजनवेक्टर की दिशा में सबसे तेज़ी से अभिसरण करेगी। इसी तरह, यह सबसे छोटे eigenvalue के eigenvector की दिशा में सबसे धीरे से अभिसरण करेगा। जब लिए बड़े और छोटे आईजेनवल के बीच एक बड़ी असमानता होती है , तो धीरे-धीरे वंश धीमा हो जाएगा। कोई भी $I-\alpha A$

α < \frac{2}{λ_{m a x}},

$\alpha<\frac{2}{\lambda_{max}},$

λ_{m a x}

$\lambda_{max}$

A

$A$

A

$A$

A

$A$ इस संपत्ति के साथ धीरे-धीरे ढाल वंश का उपयोग कर अभिसरण होगा।

तंत्रिका नेटवर्क के विशिष्ट संदर्भ में, पुस्तक न्यूरल नेटवर्क डिज़ाइन में संख्यात्मक अनुकूलन विधियों पर काफी जानकारी है। उपरोक्त चर्चा धारा 9-7 का संक्षेपण है।

— साइकोरैक्स का कहना है कि मोनिका को बहाल करो
स्रोत

बहुत बढ़िया जवाब! मैं @Dougal का उत्तर स्वीकार कर रहा हूं क्योंकि मुझे लगता है कि यह एक सरल व्याख्या प्रदान करता है।

— बार

6

उत्तल अनुकूलन में आप फ़ंक्शन को एक आयामी मामले में दूसरी डिग्री बहुपद के रूप में अनुमानित कर रहे हैं:

f (x) = c + β x + α x^{2}

$f(x)=c+\beta x + \alpha x^2$

इस स्थिति में दूसरा व्युत्पन्न

\partial^{2} f (x) / \partial x^{2} = 2 α

$\partial^2 f(x)/\partial x^2=2\alpha$

यदि आप डेरिवेटिव जानते हैं, तो इष्टतम के लिए अगला अनुमान प्राप्त करना आसान है:

guess = - \frac{β}{2 α}

$\text{guess}=-\frac{\beta}{2\alpha}$

बहुभिन्नरूपी मामला बहुत समान है, बस डेरिवेटिव के लिए ग्रेडिएंट का उपयोग करें।

— Aksakal
स्रोत

2

@ डगल ने पहले से ही एक शानदार तकनीकी जवाब दिया।

नो-मैथ्स स्पष्टीकरण यह है कि जबकि रैखिक (आदेश 1) सन्निकटन एक "विमान" प्रदान करता है जो एक त्रुटि सतह पर एक बिंदु के लिए स्पर्शरेखा है, द्विघात अनुमान (आदेश 2) एक सतह प्रदान करता है जो त्रुटि सतह की वक्रता को गले लगाती है।

इस लिंक पर वीडियो इस अवधारणा को देखने का एक बड़ा काम करते हैं। वे फंक्शन सतह पर ऑर्डर 0, ऑर्डर 1 और ऑर्डर 2 अंदाज़ प्रदर्शित करते हैं, जो कि सहजता से सत्यापित करता है कि दूसरे उत्तर गणितीय रूप से क्या प्रस्तुत करते हैं।

साथ ही, विषय पर एक अच्छा ब्लॉगपोस्ट (तंत्रिका नेटवर्क पर लागू) यहाँ है ।

— Zhubarb
स्रोत