मुझे लगता है कि यह एक बुनियादी सवाल है और इसे ग्रेडिएंट की दिशा के साथ ही करना है, लेकिन मैं ऐसे उदाहरणों की तलाश कर रहा हूं, जहां 2 क्रम विधियां (जैसे बीएफजीएस ) सरल ढाल वंश की तुलना में अधिक प्रभावी हैं।
मुझे लगता है कि यह एक बुनियादी सवाल है और इसे ग्रेडिएंट की दिशा के साथ ही करना है, लेकिन मैं ऐसे उदाहरणों की तलाश कर रहा हूं, जहां 2 क्रम विधियां (जैसे बीएफजीएस ) सरल ढाल वंश की तुलना में अधिक प्रभावी हैं।
जवाबों:
यहां ग्रेडिएंट डिसेंट और न्यूटन की विधि दोनों की व्याख्या करने के लिए एक सामान्य रूपरेखा है, जो @ साइकोरैक्स के उत्तर के पूरक के रूप में अंतर के बारे में सोचने का एक उपयोगी तरीका है। (बीएफजीएस ने न्यूटन की विधि का अनुमान लगाया है; मैं इसके बारे में विशेष रूप से यहां बात नहीं करूंगा।)
हम फ़ंक्शन कम कर रहे हैं , लेकिन हम यह नहीं जानते कि सीधे कैसे करें। इसलिए, इसके बजाय, हम अपने वर्तमान बिंदु पर एक स्थानीय सन्निकटन लेते हैं और इसे कम करते हैं।
न्यूटन की विधि एक दूसरे क्रम के टेलर विस्तार का उपयोग करके फ़ंक्शन का अनुमान : जहां की ढाल को दर्शाता है बिंदु पर और \ nabla ^ 2 f (x) में हेस्सियन एक्स । यह तब \ arg \ min_y N_x (y) और दोहराता है।∇ च ( एक्स ) च x ∇ 2 च ( एक्स ) एक्स आर्ग मिनट y एन एक्स ( y )
ग्रेडिएंट डिसेंट, केवल ग्रेडिएंट और हेसियन नहीं, केवल प्रथम-ऑर्डर सन्निकटन नहीं बना सकता है और इसे कम से कम कर सकता है, क्योंकि @Hurkyl ने उल्लेख किया है कि इसमें कोई न्यूनतम नहीं है। इसके बजाय, हम एक स्टेप साइज और स्टेप टू को परिभाषित करते हैं । लेकिन ध्यान दें कि इस प्रकार ग्रेडिएंट वंश एक फ़ंक्शन एक्स - टी ∇ च ( एक्स ) एक्स - टीजीएक्स(y):=च(एक्स)+∇च(एक्स)टी(y-एक्स)+1
इस प्रकार ढाल वंश न्यूटन की विधि का उपयोग कर की तरह की तरह है, लेकिन इसके बजाय दूसरे क्रम टेलर विस्तार लेने का, हम दिखावा कि हेस्सियन है । यह अक्सर तुलना में लिए एक बहुत खराब स्थिति है , और इसलिए ढाल वंश अक्सर न्यूटन की विधि की तुलना में बहुत खराब कदम उठाता है। बेशक, यह असंतुलित है, न्यूटन की विधि के प्रत्येक चरण की तुलना में ढाल वंश के प्रत्येक चरण को गणना करने के लिए इतना सस्ता है। जो बेहतर है वह पूरी तरह से समस्या की प्रकृति, आपके कम्प्यूटेशनल संसाधनों और आपकी सटीकता की आवश्यकताओं पर निर्भर करता है।GfN
को देखते हुए @ सिसोरैक्स के उदाहरण एक द्विघात को न्यूनतम करने के एक पल के लिए, यह देखते हुए यह की कीमत है कि इस परिप्रेक्ष्य दोनों तरीकों को समझने के साथ मदद करता है।
न्यूटन की विधि के साथ, हमारे पास ताकि यह एक ही चरण में सटीक उत्तर (फ्लोटिंग पॉइंट सटीकता के मुद्दों तक) के साथ समाप्त हो जाए।
दूसरी ओर, वंश, जिसका पर स्पर्शरेखा तल है सही है, लेकिन जिनकी वक्रता पूरी तरह से गलत है, और वास्तव में अलग-अलग दिशाओं में महत्वपूर्ण अंतरों को दूर फेंकता है जब के आइजनवेल्यू अलग-अलग होते हैं।xA
अनिवार्य रूप से, न्यूटन की विधि की तरह दूसरी व्युत्पन्न पद्धति का लाभ यह है कि इसमें द्विघात समाप्ति की गुणवत्ता है। इसका मतलब है कि यह एक परिमित संख्या में चरणों की संख्या को कम कर सकता है। ग्रेडिएंट डिसेंट की तरह एक विधि सीखने की दर पर बहुत अधिक निर्भर करती है, जिसके कारण अनुकूलन या तो धीरे-धीरे परिवर्तित हो सकता है क्योंकि यह इष्टतम के आसपास उछल रहा है, या पूरी तरह से विचलन करने के लिए है। स्थिर सीखने की दर मिल सकती है ... लेकिन हेसियन की गणना करना शामिल है। यहां तक कि एक स्थिर सीखने की दर का उपयोग करते समय, आपके पास इष्टतम के आसपास दोलन जैसी समस्याएं हो सकती हैं, यानी आप हमेशा न्यूनतम के लिए "प्रत्यक्ष" या "कुशल" मार्ग नहीं लेंगे। तो यह समाप्त करने के लिए कई पुनरावृत्तियों को ले सकता है, भले हीआप इसके अपेक्षाकृत करीब हैं। बीएफजीएस और न्यूटन की विधि अधिक तेज़ी से अभिसरण कर सकती है भले ही प्रत्येक चरण का कम्प्यूटेशनल प्रयास अधिक महंगा हो।
उदाहरण के लिए आपके अनुरोध के लिए: मान लीजिए कि आपके पास ऑब्जेक्टिव फंक्शन ग्रेडिएंट है और डाल रहा है निरंतर सीखने की दर साथ सबसे कम मूल रूप में
यह स्थिर होगा यदि के ईजीनवेक्टर्स की परिमाण 1. से कम है। हम इस संपत्ति का उपयोग यह दिखाने के लिए कर सकते हैं कि एक स्थिर सीखने की दर जहाँ का सबसे बड़ा है । सबसे बड़ी वंशावली एल्गोरिथ्म की अभिसरण दर सबसे बड़े आइगेनवैल्यू द्वारा सीमित है और दिनचर्या अपने संबंधित आइजनवेक्टर की दिशा में सबसे तेज़ी से अभिसरण करेगी। इसी तरह, यह सबसे छोटे eigenvalue के eigenvector की दिशा में सबसे धीरे से अभिसरण करेगा। जब लिए बड़े और छोटे आईजेनवल के बीच एक बड़ी असमानता होती है , तो धीरे-धीरे वंश धीमा हो जाएगा। कोई भी
तंत्रिका नेटवर्क के विशिष्ट संदर्भ में, पुस्तक न्यूरल नेटवर्क डिज़ाइन में संख्यात्मक अनुकूलन विधियों पर काफी जानकारी है। उपरोक्त चर्चा धारा 9-7 का संक्षेपण है।
उत्तल अनुकूलन में आप फ़ंक्शन को एक आयामी मामले में दूसरी डिग्री बहुपद के रूप में अनुमानित कर रहे हैं:
इस स्थिति में दूसरा व्युत्पन्न
यदि आप डेरिवेटिव जानते हैं, तो इष्टतम के लिए अगला अनुमान प्राप्त करना आसान है:
बहुभिन्नरूपी मामला बहुत समान है, बस डेरिवेटिव के लिए ग्रेडिएंट का उपयोग करें।
@ डगल ने पहले से ही एक शानदार तकनीकी जवाब दिया।
नो-मैथ्स स्पष्टीकरण यह है कि जबकि रैखिक (आदेश 1) सन्निकटन एक "विमान" प्रदान करता है जो एक त्रुटि सतह पर एक बिंदु के लिए स्पर्शरेखा है, द्विघात अनुमान (आदेश 2) एक सतह प्रदान करता है जो त्रुटि सतह की वक्रता को गले लगाती है।
इस लिंक पर वीडियो इस अवधारणा को देखने का एक बड़ा काम करते हैं। वे फंक्शन सतह पर ऑर्डर 0, ऑर्डर 1 और ऑर्डर 2 अंदाज़ प्रदर्शित करते हैं, जो कि सहजता से सत्यापित करता है कि दूसरे उत्तर गणितीय रूप से क्या प्रस्तुत करते हैं।
साथ ही, विषय पर एक अच्छा ब्लॉगपोस्ट (तंत्रिका नेटवर्क पर लागू) यहाँ है ।