उत्तल अनुकूलन में द्वितीय-क्रम डेरिवेटिव उपयोगी क्यों हैं?


18

मुझे लगता है कि यह एक बुनियादी सवाल है और इसे ग्रेडिएंट की दिशा के साथ ही करना है, लेकिन मैं ऐसे उदाहरणों की तलाश कर रहा हूं, जहां 2 क्रम विधियां (जैसे बीएफजीएस ) सरल ढाल वंश की तुलना में अधिक प्रभावी हैं।


3
क्या यह निरीक्षण करना बहुत सरल है कि "एक पैराबोलाइड के शीर्ष को ढूंढें" "इस रैखिक फ़ंक्शन के न्यूनतम को खोजने की तुलना में" एक न्यूनतम "समस्या खोजने के लिए एक बहुत बेहतर सन्निकटन है (जो निश्चित रूप से, कोई न्यूनतम नहीं है क्योंकि यह है रैखिक)?

जवाबों:


20

यहां ग्रेडिएंट डिसेंट और न्यूटन की विधि दोनों की व्याख्या करने के लिए एक सामान्य रूपरेखा है, जो @ साइकोरैक्स के उत्तर के पूरक के रूप में अंतर के बारे में सोचने का एक उपयोगी तरीका है। (बीएफजीएस ने न्यूटन की विधि का अनुमान लगाया है; मैं इसके बारे में विशेष रूप से यहां बात नहीं करूंगा।)

हम फ़ंक्शन कम कर रहे हैं , लेकिन हम यह नहीं जानते कि सीधे कैसे करें। इसलिए, इसके बजाय, हम अपने वर्तमान बिंदु पर एक स्थानीय सन्निकटन लेते हैं और इसे कम करते हैं।fx

न्यूटन की विधि एक दूसरे क्रम के टेलर विस्तार का उपयोग करके फ़ंक्शन का अनुमान : जहां की ढाल को दर्शाता है बिंदु पर और \ nabla ^ 2 f (x) में हेस्सियन एक्स । यह तब \ arg \ min_y N_x (y) और दोहराता है।( एक्स ) x 2( एक्स ) एक्स आर्ग मिनट y एन एक्स ( y )

f(y)Nx(y):=f(x)+f(x)T(yx)+12(yx)T2f(x)(yx),
f(x)fx2f(x)xargminyNx(y)

ग्रेडिएंट डिसेंट, केवल ग्रेडिएंट और हेसियन नहीं, केवल प्रथम-ऑर्डर सन्निकटन नहीं बना सकता है और इसे कम से कम कर सकता है, क्योंकि @Hurkyl ने उल्लेख किया है कि इसमें कोई न्यूनतम नहीं है। इसके बजाय, हम एक स्टेप साइज और स्टेप टू को परिभाषित करते हैं । लेकिन ध्यान दें कि इस प्रकार ग्रेडिएंट वंश एक फ़ंक्शन एक्स - टी ( एक्स ) एक्स - टीtxtf(x)जीएक्स(y):=(एक्स)+(एक्स)टी(y-एक्स)+1

xtf(x)=argmaxy[f(x)+f(x)T(yx)+12tyx2]=argmaxy[f(x)+f(x)T(yx)+12(yx)T1tI(yx)].
Gx(y):=f(x)+f(x)T(yx)+12(yx)T1tI(yx).

इस प्रकार ढाल वंश न्यूटन की विधि का उपयोग कर की तरह की तरह है, लेकिन इसके बजाय दूसरे क्रम टेलर विस्तार लेने का, हम दिखावा कि हेस्सियन है । यह अक्सर तुलना में लिए एक बहुत खराब स्थिति है , और इसलिए ढाल वंश अक्सर न्यूटन की विधि की तुलना में बहुत खराब कदम उठाता है। बेशक, यह असंतुलित है, न्यूटन की विधि के प्रत्येक चरण की तुलना में ढाल वंश के प्रत्येक चरण को गणना करने के लिए इतना सस्ता है। जो बेहतर है वह पूरी तरह से समस्या की प्रकृति, आपके कम्प्यूटेशनल संसाधनों और आपकी सटीकता की आवश्यकताओं पर निर्भर करता है।GfN1tIGfN

को देखते हुए @ सिसोरैक्स के उदाहरण एक द्विघात को न्यूनतम करने के एक पल के लिए, यह देखते हुए यह की कीमत है कि इस परिप्रेक्ष्य दोनों तरीकों को समझने के साथ मदद करता है।

(एक्स)=12एक्सटीएक्स+टीएक्स+सी

न्यूटन की विधि के साथ, हमारे पास ताकि यह एक ही चरण में सटीक उत्तर (फ्लोटिंग पॉइंट सटीकता के मुद्दों तक) के साथ समाप्त हो जाए।एन=

दूसरी ओर, वंश, जिसका पर स्पर्शरेखा तल है सही है, लेकिन जिनकी वक्रता पूरी तरह से गलत है, और वास्तव में अलग-अलग दिशाओं में महत्वपूर्ण अंतरों को दूर फेंकता है जब के आइजनवेल्यू अलग-अलग होते हैं।xA

Gx(y)=f(x)+(Ax+d)Ty+12(xy)T1tI(xy)
xA

1
यह @ अक्षल के उत्तर के समान है , लेकिन अधिक गहराई में।
डगल

1
(+1) यह एक बढ़िया अतिरिक्त है!
साइकोरैक्स का कहना है कि मोनिका

17

अनिवार्य रूप से, न्यूटन की विधि की तरह दूसरी व्युत्पन्न पद्धति का लाभ यह है कि इसमें द्विघात समाप्ति की गुणवत्ता है। इसका मतलब है कि यह एक परिमित संख्या में चरणों की संख्या को कम कर सकता है। ग्रेडिएंट डिसेंट की तरह एक विधि सीखने की दर पर बहुत अधिक निर्भर करती है, जिसके कारण अनुकूलन या तो धीरे-धीरे परिवर्तित हो सकता है क्योंकि यह इष्टतम के आसपास उछल रहा है, या पूरी तरह से विचलन करने के लिए है। स्थिर सीखने की दर मिल सकती है ... लेकिन हेसियन की गणना करना शामिल है। यहां तक ​​कि एक स्थिर सीखने की दर का उपयोग करते समय, आपके पास इष्टतम के आसपास दोलन जैसी समस्याएं हो सकती हैं, यानी आप हमेशा न्यूनतम के लिए "प्रत्यक्ष" या "कुशल" मार्ग नहीं लेंगे। तो यह समाप्त करने के लिए कई पुनरावृत्तियों को ले सकता है, भले हीआप इसके अपेक्षाकृत करीब हैं। बीएफजीएस और न्यूटन की विधि अधिक तेज़ी से अभिसरण कर सकती है भले ही प्रत्येक चरण का कम्प्यूटेशनल प्रयास अधिक महंगा हो।

उदाहरण के लिए आपके अनुरोध के लिए: मान लीजिए कि आपके पास ऑब्जेक्टिव फंक्शन ग्रेडिएंट है और डाल रहा है निरंतर सीखने की दर साथ सबसे कम मूल रूप में

F(x)=12xTAx+dTx+c
F(x)=Ax+d
xk+1=xkα(Axk+d)=(IαA)xkαd.

यह स्थिर होगा यदि के ईजीनवेक्टर्स की परिमाण 1. से कम है। हम इस संपत्ति का उपयोग यह दिखाने के लिए कर सकते हैं कि एक स्थिर सीखने की दर जहाँ का सबसे बड़ा है । सबसे बड़ी वंशावली एल्गोरिथ्म की अभिसरण दर सबसे बड़े आइगेनवैल्यू द्वारा सीमित है और दिनचर्या अपने संबंधित आइजनवेक्टर की दिशा में सबसे तेज़ी से अभिसरण करेगी। इसी तरह, यह सबसे छोटे eigenvalue के eigenvector की दिशा में सबसे धीरे से अभिसरण करेगा। जब लिए बड़े और छोटे आईजेनवल के बीच एक बड़ी असमानता होती है , तो धीरे-धीरे वंश धीमा हो जाएगा। कोई भीIαA

α<2λmax,
λmaxAAA इस संपत्ति के साथ धीरे-धीरे ढाल वंश का उपयोग कर अभिसरण होगा।

तंत्रिका नेटवर्क के विशिष्ट संदर्भ में, पुस्तक न्यूरल नेटवर्क डिज़ाइन में संख्यात्मक अनुकूलन विधियों पर काफी जानकारी है। उपरोक्त चर्चा धारा 9-7 का संक्षेपण है।


बहुत बढ़िया जवाब! मैं @Dougal का उत्तर स्वीकार कर रहा हूं क्योंकि मुझे लगता है कि यह एक सरल व्याख्या प्रदान करता है।
बार

6

उत्तल अनुकूलन में आप फ़ंक्शन को एक आयामी मामले में दूसरी डिग्री बहुपद के रूप में अनुमानित कर रहे हैं:

f(x)=c+βx+αx2

इस स्थिति में दूसरा व्युत्पन्न

2f(x)/x2=2α

यदि आप डेरिवेटिव जानते हैं, तो इष्टतम के लिए अगला अनुमान प्राप्त करना आसान है:

guess=β2α

बहुभिन्नरूपी मामला बहुत समान है, बस डेरिवेटिव के लिए ग्रेडिएंट का उपयोग करें।


2

@ डगल ने पहले से ही एक शानदार तकनीकी जवाब दिया।

नो-मैथ्स स्पष्टीकरण यह है कि जबकि रैखिक (आदेश 1) सन्निकटन एक "विमान" प्रदान करता है जो एक त्रुटि सतह पर एक बिंदु के लिए स्पर्शरेखा है, द्विघात अनुमान (आदेश 2) एक सतह प्रदान करता है जो त्रुटि सतह की वक्रता को गले लगाती है।

इस लिंक पर वीडियो इस अवधारणा को देखने का एक बड़ा काम करते हैं। वे फंक्शन सतह पर ऑर्डर 0, ऑर्डर 1 और ऑर्डर 2 अंदाज़ प्रदर्शित करते हैं, जो कि सहजता से सत्यापित करता है कि दूसरे उत्तर गणितीय रूप से क्या प्रस्तुत करते हैं।

साथ ही, विषय पर एक अच्छा ब्लॉगपोस्ट (तंत्रिका नेटवर्क पर लागू) यहाँ है

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.