यह एक काठी बिंदु में कैसे फंस सकता है?


14

वर्तमान में मैं थोड़ा सा हैरान हूं कि कैसे मिनी-बैच ग्रेडिएंट वंश को एक काठी बिंदु में फँसाया जा सकता है।

समाधान बहुत तुच्छ हो सकता है कि मुझे नहीं मिलता है।

आप एक नया नमूना हर युग मिलता है, और यह एक नया एक नए बैच के आधार पर त्रुटि की गणना करता है, तो लागत समारोह प्रत्येक बैच, के लिए केवल स्थिर है जिसका अर्थ है कि ढाल भी एक मिनी बैच के लिए बदलना चाहिए .. लेकिन के अनुसार इस करना चाहिए एक वेनिला कार्यान्वयन में काठी अंक के साथ मुद्दे हैं?

तंत्रिका नेटवर्क के लिए अत्यधिक गैर-उत्तल त्रुटि कार्यों को कम करने की एक और महत्वपूर्ण चुनौती उनके कई उप-अपनाने वाली स्थानीय सीमा में फंसने से बच रही है। Dauphin et al। [१ ९] यह तर्क देता है कि कठिनाई वास्तव में स्थानीय मिनीमा से नहीं बल्कि काठी के बिंदुओं से उत्पन्न होती है, यानी ऐसे बिंदु जहां एक आयाम ढलान और दूसरा ढलान। ये काठी बिंदु आमतौर पर एक ही त्रुटि के एक पठार से घिरे होते हैं, जो कि एसडब्ल्यूई से बचने के लिए कुख्यात रूप से कठिन है, क्योंकि ढाल सभी आयामों में शून्य के करीब है।

मेरा मतलब है कि विशेष रूप से एसडब्ल्यूडी को काठी के अंक के खिलाफ स्पष्ट लाभ होगा, क्योंकि यह अपने अभिसरण की ओर उतार-चढ़ाव करता है ... उतार-चढ़ाव और यादृच्छिक नमूनाकरण, और प्रत्येक युग के लिए अलग-अलग होने का लागत फ़ंक्शन एक में फंस नहीं होने के लिए पर्याप्त कारण होना चाहिए।

पूर्ण बैच ग्रेडिएंट सभ्य के लिए यह अर्थ है कि यह काठी बिंदु में फंस सकता है, क्योंकि त्रुटि फ़ंक्शन स्थिर है।

मैं दो अन्य भागों पर थोड़ा भ्रमित हूं।


1
मोती मिलता है। बहुत ऊँची ढलान के साथ काठी बिंदु और शून्य ढलान से घिरे एक बड़े पैमाने पर ढाल के साथ "बैडलैंड" में प्रवेश किया जाता है, जहां से यह ठीक नहीं हो सकता है। अनिवार्य रूप से सपाट मैदान पर एक कुएं की तलाश के बारे में सोचें। अब अच्छी तरह से सूखे के बारे में सोचें, और केंद्र में एक चींटी-पहाड़ी के साथ। एक ढाल-वंश जो चींटी-पहाड़ी पर भूमि, लेकिन सटीक शीर्ष पर नहीं है, खोज को रेडियल रूप से शूट करने जा रहा है। अब कल्पना कीजिए कि खोज के लिए चरण-आकार कुएं के व्यास से एक हजार गुना बड़ा है। यदि खोज कभी अच्छी तरह से मिल जाती है, तो
एंथिल ने

मैं उलझन में हूँ कि आपका क्या पूछना है। क्या आप इस बात को लेकर असमंजस में हैं कि क्यों पैदाइशी शोर की वजह से एसडब्लूई बिंदू में फंसने में सक्षम नहीं है, क्योंकि ऐसा करने से आपको बच निकलने में सक्षम होना चाहिए? (इसके विपरीत अगर यह पूर्ण बैच जीडी था तो अगर ढाल शून्य है और कोई शोर नहीं है तो यह बच नहीं सकता है, क्या यह आपकी पूछ है?)
पिनोचियो

जवाबों:


16

नीचे उत्तल से छवि पर एक नज़र डालें । उत्तल फ़ंक्शन (सबसे बाईं छवि) में केवल एक स्थानीय न्यूनतम होता है, जो वैश्विक न्यूनतम भी होता है। लेकिन एक गैर-उत्तल फ़ंक्शन (सबसे दाहिनी छवि) में, कई स्थानीय मिनीमा हो सकते हैं और अक्सर दो स्थानीय मिनीमा में शामिल होना एक काठी बिंदु होता है। यदि आप एक उच्च बिंदु से आ रहे हैं, तो ढाल तुलनात्मक रूप से चापलूसी है, और आप वहां फंसने का जोखिम उठाते हैं, खासकर यदि आप केवल एक दिशा में आगे बढ़ रहे हैं।

एक काठी बिंदु के आरेखीय प्रतिनिधित्व

अब बात यह है कि क्या आप मिनी-बैच का उपयोग करके अनुकूलन कर रहे हैंया स्टोकेस्टिक ग्रेडिएंट डिसेंट, अंतर्निहित गैर-उत्तल फ़ंक्शन समान है, और ग्रेडिएंट इस फ़ंक्शन का एक गुण है। मिनी-बैच करते समय, आप एक बार में कई नमूनों पर विचार करते हैं और उन सभी पर औसतन ग्रेडिएंट कदम उठाते हैं। यह विचरण को कम करता है। लेकिन अगर औसत ढाल दिशा अभी भी काठी बिंदु के रूप में उसी दिशा में इंगित कर रही है, तो आप अभी भी वहां फंसने का जोखिम उठाते हैं। सादृश्य, यदि आप 2 कदम आगे और 1 कदम पीछे ले जा रहे हैं, तो उन पर औसतन, आप अंत में 1 कदम आगे ले जाते हैं। यदि आप इसके बजाय SGD करते हैं, तो आप एक के बाद एक सभी कदम उठाते हैं, लेकिन यदि आप अभी भी एक ही दिशा में आगे बढ़ रहे हैं, तो आप काठी बिंदु तक पहुंच सकते हैं और पा सकते हैं कि सभी तरफ ढाल काफी सपाट है और चरण आकार इस समतल भाग पर जाने के लिए बहुत छोटा। यह नहीं है '

यहां के विज़ुअलाइज़ेशन पर एक नज़र डालें । SGD के साथ भी, यदि उतार-चढ़ाव केवल एक आयाम के साथ होते हैं, तो कदम छोटे और छोटे होते जा रहे हैं, यह काठी बिंदु पर परिवर्तित होगा। इस मामले में, मिनी-बैच विधि केवल उतार-चढ़ाव की मात्रा को कम कर देगी, लेकिन ढाल की दिशा को बदलने में सक्षम नहीं होगी।

यदि कभी-कभी उतार-चढ़ाव अन्य दिशाओं के साथ होते हैं, और यदि सपाटता से अधिक यह कदम आकार के लिए पर्याप्त है, तो SGD कभी-कभी सरल काठी बिंदुओं से बाहर निकल सकता है । लेकिन कभी-कभी काठी क्षेत्र काफी जटिल हो सकते हैं, जैसे कि नीचे की छवि में।

जटिल काठी क्षेत्र

जिस तरह से गति, ADAGRAD, एडम आदि जैसे तरीके इस से बाहर निकलने में सक्षम हैं, पिछले ग्रेडिएटर्स पर विचार करके है। गति पर विचार करें,

vt=γvt1+ηthetaJ(θ)

vt1


खैर, बिल्कुल नहीं! व्यवहार में उत्तर के लिए देखें: आंकड़े.stackexchange.com/a/284399/117305
alifornia

@AliAbbasinasab मुझे लगता है कि एंटीमनी अच्छी तरह से समझाता है। बेशक, एक साधारण काठी में फंसना मुश्किल है जैसा कि आप अपने जवाब में उल्लेख करते हैं, लेकिन उन्होंने सिर्फ संभावना जताई कि एसडब्ल्यूई को पकड़ा जा सकता है। और मेरे लिए, उसने सिर्फ कुछ असामान्य काठी बिंदु दिखाए जो कि SGD नहीं बच सकता है।
Kazuya Tomita

2

यह नहीं होना चाहिए।

[ 1 ] दिखाया गया है कि यादृच्छिक आरंभीकरण और उचित स्थिर कदम आकार के साथ ढाल वंश एक काठी बिंदु में परिवर्तित नहीं होता है। यह एक लंबी चर्चा है, लेकिन आपको यह अनुमान लगाने के लिए कि निम्न उदाहरण क्यों देखें:

f(x,y)=12x2+14y412y2

यहाँ छवि विवरण दर्ज करें

z1=[00],z2=[01],z3=[01]

z2z3z1

z0=[x0]z1z1xR2

2f(x,y)=[1003y21]

2f(z1)xxz1


आप बस आसानी से एक काउंटर-उदाहरण फ़ंक्शन को चुन सकते हैं, जहां आप हर बार एक काठी बिंदु में फंस जाएंगे ...
Jan Kukacka

1
मैं आपके लिंक तक पहुँचने में असमर्थ रहा हूँ [१] - क्या आप पूर्ण प्रशस्ति पत्र प्रदान कर सकते हैं? इस बीच, आपके दावे के लिए प्रतिपक्षों का निर्माण करना संभव है, यह दर्शाता है कि यह अतिरिक्त अस्थिर मान्यताओं पर आधारित होना चाहिए।
whuber

@ जब भी आप आसानी से काउंटरटेम्पल्स को पका सकते हैं। उदाहरण के लिए यदि आपके पास अपने स्थान के रूप में केवल एक पंक्ति है। मैंने बस एक बिंदु जोड़ने की कोशिश की जो कई लोगों के लिए स्पष्ट नहीं हो सकता है (यह शुरुआत में मेरे लिए बहुत स्पष्ट नहीं था क्यों)। संदर्भ के बारे में, मुझे नहीं पता कि आप इस तक क्यों नहीं पहुँच सकते। मैंने दोहरी जाँच की, लिंक मान्य है और साथ ही अद्यतन किया गया है। आप "ग्रेडिएंट डिसेंट कंवर्जेस टू मिनिमाइज़र, जेसन डी। ली, मैक्स सिमकोविट्ज, माइकल आई। जॉर्डन You और बेंजामिन रिचेट You artment डिडबॉक्स ऑफ इलेक्ट्रिकल इंजीनियरिंग एंड कंप्यूटर साइंसेज of डिपार्टमेंट ऑफ स्टेटिस्टिकल यूनिवर्सिटी ऑफ कैलिफोर्निया, बर्कले, 19 अप्रैल, 2019 को खोज सकते हैं। "
एलिफॉर्निया

संदर्भ के लिए धन्यवाद। इस पर एक त्वरित नज़र (लिंक अब काम करता है) दिखाता है कि विश्लेषण "सख्त काठी" तक सीमित है (जहां हेस्सियन के सकारात्मक और नकारात्मक दोनों प्रकार के स्वदेशी हैं), जो कई संभावनाओं को रोकता है। पेपर के अंतिम वक्तव्यों में "हम ध्यान दें कि बहुत मुश्किल असंबंधित अनुकूलन समस्याएं हैं जहां सख्त काठी की स्थिति विफल हो जाती है" और वे उदाहरण के रूप में चतुर्थक न्यूनतमकरण की पेशकश करते हैं।
whuber

0

यदि आप संदर्भित पेपर पर जाते हैं (वे यह भी स्पष्ट रूप से दिखाते हैं कि कैसे उनके काठी-मुक्त दृष्टिकोण वास्तव में मिनी-बैच के SGD पर सुधार करते हैं) तो वे कहते हैं:

ढाल वंश विधि का एक चरण हमेशा एक काठी बिंदु के करीब सही दिशा में इंगित करता है ... और इसलिए छोटे निरपेक्ष मूल्य के eigenvalues ​​के अनुरूप दिशा में छोटे कदम उठाए जाते हैं।

वे काठी बिंदुओं के पास "पठारों" की उपस्थिति पर भी ध्यान देते हैं (दूसरे शब्दों में, काठी खड़ी नहीं है) - इन मामलों में, बहुत छोटे कदम उठाने से वास्तव में काठी क्षेत्र से बचने से पहले समय से पहले अभिसरण हो जाएगा। चूंकि यह एक गैर-उत्तल अनुकूलन है, इसलिए सीखने की दर के अभिसरण से यह खराब हो जाएगा।

यह संभव प्रतीत होता है कि कोई एक पुनरावृत्त दृष्टिकोण की कोशिश कर सकता है, जहां एक मिनी-बैच SGD को फिर से शुरू होता है (पूरा होने पर, सीखने की दर को रीसेट करना) यह देखने के लिए कि क्या कोई समस्याग्रस्त क्षेत्र से बच सकता है।


0

मुझे लगता है कि समस्या यह है कि एक काठी बिंदु के पास पहुंचने पर आप एक पठार में प्रवेश करते हैं, अर्थात कम (निरपेक्ष मूल्य वाले) ढालों वाला क्षेत्र। खासकर जब आप रिज से आ रहे हैं। तो आपके एल्गोरिथ्म में कदम का आकार कम हो जाता है। घटी हुई स्टेप साइज के साथ अब सभी ग्रेडिएंट (सभी दिशाओं में) निरपेक्ष मूल्य में छोटे हैं। तो एल्गोरिथ्म बंद हो जाता है, यह सोचकर कि यह न्यूनतम है।

यदि आप कदमों में कमी नहीं करते हैं तो आप न्यूनतम पर कूदेंगे, और उन्हें बहुत याद करेंगे। आपको किसी तरह चरण का आकार कम करना होगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.