उत्तल समस्याओं के लिए, स्टोकेस्टिक ग्रेडिएंट डिसेंट (SGD) में ढाल हमेशा वैश्विक चरम मूल्य पर इंगित करता है?


25

उत्तल लागत फ़ंक्शन को देखते हुए, अनुकूलन के लिए SGD का उपयोग करते हुए, अनुकूलन प्रक्रिया के दौरान एक निश्चित बिंदु पर हमारे पास एक ढाल (वेक्टर) होगा।

मेरा सवाल यह है कि उत्तल बिंदु को देखते हुए, ग्रेडिएंट केवल उसी दिशा में इंगित करता है जिस पर फ़ंक्शन तेजी से बढ़ता / घटता है, या ग्रेडिएंट हमेशा लागत फ़ंक्शन के इष्टतम / चरम बिंदु पर इंगित करता है ?

पूर्व एक स्थानीय अवधारणा है, बाद वाला एक वैश्विक अवधारणा है।

SGD अंततः लागत फ़ंक्शन के चरम मूल्य में परिवर्तित हो सकता है। मैं अनुमान के बीच अंतर के बारे में सोच रहा हूं कि उत्तल पर एक मनमाना बिंदु दिया गया है और वैश्विक चरम मूल्य की ओर इशारा करते हुए दिशा।

ग्रेडिएंट की दिशा वह दिशा होनी चाहिए, जिस पर कार्य उस बिंदु पर सबसे तेजी से बढ़ता / घटता है, है ना?


6
क्या आपने कभी किसी पहाड़ की चोटी से सीधे नीचे की ओर चढ़ाई की है, केवल अपने आप को एक घाटी में खोजने के लिए जो एक अलग दिशा में डाउनहिल जारी है ? उत्तल स्थलाकृति के साथ ऐसी स्थिति की कल्पना करना चुनौती है: एक चाकू की धार के बारे में सोचें जहां रिज सबसे ऊपर है।
whuber

4
नहीं, क्योंकि यह स्टोकेस्टिक ग्रेडिएंट डीसेंट है, ग्रेडिएंट डीसेंट नहीं। SGD का संपूर्ण बिंदु यह है कि आप कुछ कम्प्यूटेशनल सूचनाओं को बढ़ी हुई कम्प्यूटेशनल दक्षता के बदले में फेंक देते हैं - लेकिन स्पष्ट रूप से कुछ ग्रेडिएंट जानकारी को फेंकने में आप अब मूल ग्रेडर की दिशा में नहीं जा सकते हैं। यह पहले से ही इस मुद्दे की अनदेखी कर रहा है कि इष्टतम वंश की दिशा में नियमित ग्रेडिएंट अंक है या नहीं, लेकिन बिंदु, भले ही नियमित ढाल वंश ने किया हो, ऐसा करने के लिए स्टोकेस्टिक ग्रेडिएंट वंश की अपेक्षा करने का कोई कारण नहीं है।
Chill2Macht

3
@ टायलर, आपका प्रश्न विशेष रूप से स्टोचस्टिक ग्रेडिएंट डिसेंट के बारे में क्यों है । क्या आप मानक ढाल वंश की तुलना में कुछ अलग करने की कल्पना करते हैं?
सेक्सटस एम्पिरिकस

2
ग्रेडिएंट हमेशा इस अर्थ में इष्टतम की ओर इंगित करेगा कि ग्रेडिएंट और वेक्टर के बीच के कोण का कोण से कम होगा , और ग्रेडिएंट की दिशा में पैदल चलना एक असीम राशि होगी। आप इष्टतम के करीब हो। π2
मोनिका

5
यदि ग्रेडिएंट सीधे एक वैश्विक न्यूनतर पर इंगित करता है, तो उत्तल अनुकूलन सुपर आसान हो जाएगा, क्योंकि हम तब एक वैश्विक न्यूनतम खोज करने के लिए एक आयामी लाइन खोज कर सकते थे। यह बहुत ज्यादा है।
छोटू

जवाबों:


36

वे कहते हैं कि एक छवि एक हजार शब्दों से अधिक मूल्य की है। निम्नलिखित उदाहरण में (एमएस पेंट के सौजन्य से, शौकिया और पेशेवर दोनों सांख्यिकीविदों के लिए एक आसान उपकरण) आप एक उत्तल फ़ंक्शन की सतह और एक बिंदु देख सकते हैं, जहां सबसे स्थिर वंश की दिशा स्पष्ट रूप से इष्टतम की दिशा से भिन्न होती है।

लम्बी उत्तल फ़ंक्शन और तीरों की एक छवि जो दिखाती है कि सबसे स्थिर वंश की दिशा वैश्विक इष्टतम की दिशा के समान नहीं है

एक गंभीर नोट पर: इस सूत्र में बहुत बेहतर उत्तर हैं जो एक उत्थान के लायक भी हैं।


27
और आज का प्रति-उदाहरण है ... एक एवोकैडो!
JDL

11
आप देखते हैं कि एक एवोकैडो काटते समय, आपको बीज और एक संभावित चोट से बचने के लिए सबसे नीच वंश दिशा में कटौती करनी चाहिए ।
जन कुक्कापा

28
  • ग्रेडिएंट डिसेंट तरीके , सतह के ढलान का उपयोग करते हैं ।
  • यह आवश्यक नहीं होगा (या यहां तक ​​कि सबसे अधिक संभावना नहीं) सीधे चरम बिंदु की ओर इशारा करते हैं।

एक सहज दृश्य एक अवरोही पथ की कल्पना करना है जो एक घुमावदार मार्ग है। उदाहरण के लिए नीचे दिए गए उदाहरण देखें।

एक सादृश्य के रूप में: कल्पना कीजिए कि मैं आपको अंधा कर देता हूं और आपको एक पर्वत पर कहीं टांग के साथ चरम (निम्न) बिंदु पर वापस चलने के लिए डाल देता हूं। पहाड़ी पर, यदि आपके पास केवल स्थानीय जानकारी है, तो आप यह नहीं जान रहे हैं कि झील का तल किस दिशा में होगा।

यदि आप उत्तलता मान सकते हैं

  • तब आप जानते हैं कि केवल एक चरम बिंदु है।
  • तब आप जानते हैं कि जब तक आप नीचे की ओर बढ़ते हैं, आप निश्चित रूप से चरम बिंदु तक पहुँचने वाले हैं।
  • और फिर आप यह भी जानते हैं कि सबसे सीधी वंश दिशा और इष्टतम दिशा के बीच का कोण हमेशा सबसे अधिकπ/2 , जैसा कि सोलोमनॉफ के गुप्त ने टिप्पणियों में उल्लेख किया है।

उत्तल

उत्तलता के बिना

  • कोण से अधिक हो सकता हैπ/2 । इसके नीचे की छवि में एक विशेष बिंदु के लिए वंश की दिशा का एक तीर खींचकर जोर दिया गया है, जहां अंतिम समाधान वंश की दिशा के लिए लंबवत रेखा के पीछे है।

    उत्तल समस्या में यह संभव नहीं है। आप इस समस्या से संबंधित है जब समस्या उत्तल है एक ही दिशा में एक वक्रता होने के लिए आइसोलेट्स से संबंधित कर सकते हैं।

गैर उत्तल

स्टोचैस्टिक ग्रेडिएंट डिसेंट में

  • आप किसी एक बिंदु के लिए सबसे कठिन दिशा का पालन करते हैं (और आप बार-बार एक अलग बिंदु के लिए एक कदम उठाते हैं)। उदाहरण में समस्या उत्तल है, लेकिन एक से अधिक समाधान हो सकते हैं। उदाहरण में चरम मान एक पंक्ति (एक बिंदु के बजाय) पर होते हैं, और इस विशेष दृष्टिकोण से आप कह सकते हैं कि सबसे गहरी मूल दिशा, सीधे "इष्टतम" की ओर इशारा कर सकती है (हालांकि यह केवल फ़ंक्शन के लिए इष्टतम है उस विशेष प्रशिक्षण नमूना बिंदु के)

एकमात्र बिंदु

नीचे चार डेटा बिंदुओं के लिए एक और दृश्य है । चार छवियों में से प्रत्येक एक अलग एकल बिंदु के लिए सतह को दर्शाता है। प्रत्येक चरण एक अलग बिंदु चुना जाता है जिसके साथ ढाल की गणना की जाती है। यह बनाता है कि केवल चार दिशाएँ हैं जिनके साथ एक कदम बनाया गया है, लेकिन जब हम समाधान के करीब पहुंचते हैं तो कदम कम हो जाते हैं।

स्टोकेस्टिक क्रमिक वंश



उपरोक्त चित्र फ़ंक्शन द्वारा उत्पन्न 4 डेटा पॉइंट्स के लिए हैं:

yi=e0.4xie0.8xi+ϵi

x = 0      2      4      6           
y = 0.006  0.249  0.153  0.098

जिसके परिणामस्वरूप:

  • एक गैर-उत्तल अनुकूलन समस्या जब हम (गैर-रेखीय) लागत फ़ंक्शन

    S(a,b)=i=1(yi(eaxiebxi))2
    S(a,b)=[i=12xieaxi(yieaxiebxi)i=12xiebxi(yieaxiebxi)]

  • उत्तल अनुकूलन समस्या (किसी भी रैखिक कम से कम वर्गों की तरह) जब हम

    S(a,b)=i=1(yi(ae0.4xibe0.8xi))2
    S(a,b)=[i=12e0.4xi(yiae0.4xibe0.8xi)i=12e0.8xi(yiae0.4xibe0.8xi)]

  • एक उत्तल अनुकूलन समस्या (लेकिन एक न्यूनतम के साथ नहीं) जब हम कुछ विशिष्ट जिसमें ग्रेडिएंट इसमें कई हैं (कई हैं और जिसके लिए )i

    S(a,b)=(yi(ae0.4bxibe0.8xi))2
    S(a,b)=[2e0.4xi(yiae0.4xibe0.8xi)2e0.8xi(yiae0.4xibe0.8xi)]
    abS=0


StackExchangeStrike द्वारा लिखित



17

यदि उद्देश्य फ़ंक्शन को बहुत अधिक उत्तल किया जाता है, तो भी सबसे कम वंश अकुशल हो सकता है ।

साधारण ढाल वंश

मेरा मतलब "अकुशल" इस अर्थ में है कि सख्त वंशज ऐसे कदम उठा सकते हैं जो इष्टतम रूप से बेतहाशा दूर रहते हैं, भले ही फ़ंक्शन जोरदार उत्तल हो या चतुष्कोणीय।

पर विचार करें । यह उत्तल है क्योंकि यह सकारात्मक गुणांक के साथ एक द्विघात है। निरीक्षण से, हम देख सकते हैं कि यह पर वैश्विक न्यूनतम है । इसके ग्रेडिएंट f(x)=x12+25x22x=[0,0]

f(x)=[2x150x2]

, और प्रारंभिक अनुमान सीखने की दर के साथ हमारे पास क्रमिक अद्यतन हैα=0.035x(0)=[0.5,0.5],

x(1)=x(0)αf(x(0))

जो न्यूनतम के प्रति इस बेतहाशा दोलन प्रगति को प्रदर्शित करता है।

यहाँ छवि विवरण दर्ज करें

दरअसल, कोण और बीच गठित कोण केवल धीरे-धीरे 0 से कम हो जाता है। इसका क्या अर्थ है क्या यह है कि अद्यतन की दिशा कभी-कभी गलत होती है - अधिक से अधिक, यह लगभग 68 डिग्री से गलत है - भले ही एल्गोरिथ्म सही तरीके से परिवर्तित और काम कर रहा हो।θ(x(i),x)(x(i),x(i+1))

यहाँ छवि विवरण दर्ज करें

प्रत्येक चरण बेतहाशा दोलन कर रहा है क्योंकि दिशा की तुलना में दिशा में फ़ंक्शन बहुत अधिक । इस तथ्य के कारण, हम अनुमान लगा सकते हैं कि ढाल हमेशा, या यहां तक ​​कि आमतौर पर न्यूनतम की ओर इशारा करते हुए नहीं होती है। यह क्रमिक वंश की एक सामान्य संपत्ति है जब हेस्सियन आइजनवेल्यूज डिसिमिलर तराजू पर होते हैं। प्रगति सबसे छोटे eigenvalues ​​के साथ eigenvectors के लिए इसी दिशा में धीमी है, और सबसे बड़ी eigenvalues ​​के साथ दिशाओं में सबसे तेज है। यह यह संपत्ति है, सीखने की दर के विकल्प के साथ संयोजन में, यह निर्धारित करता है कि कितनी जल्दी ढाल वंश आगे बढ़ता है।x2x12f(x)

न्यूनतम के लिए सीधा रास्ता इस फैशन के बजाय "तिरछे" तरीके से चलना होगा, जो ऊर्ध्वाधर दोलनों पर प्रबल होता है। हालांकि, ढाल मूल में केवल स्थानीय स्थिरता के बारे में जानकारी होती है, इसलिए यह "नहीं जानता" कि रणनीति अधिक कुशल होगी, और यह विभिन्न तराजू पर हेजियन की योनि के अधीन है।

स्टोचैस्टिक ग्रेडिएंट डिसेंट

SGD के समान गुण हैं, इस अपवाद के साथ कि अपडेट शोर हैं, इसका मतलब यह है कि समोच्च सतह एक पुनरावृत्ति से अगले तक अलग दिखता है, और इसलिए ग्रेडिएंट भी अलग हैं। इसका मतलब है कि ग्रेडिएंट स्टेप की दिशा और इष्टतम के बीच के कोण में भी शोर होगा - बस कुछ घबराहट के साथ एक ही भूखंडों की कल्पना करें।

अधिक जानकारी:


यह उत्तर न्यूरल नेटवर्क्स डिज़ाइन (2 एड) के अध्याय 9 से मार्टिन टी। हेगन, हॉवर्ड बी। डेमथ, मार्क हडसन बीले, ऑरलैंडो डी जेसुस से इस उदाहरण और आंकड़े को उधार लेता है ।


13

स्थानीय इष्टतम दिशा वैश्विक इष्टतम दिशा के साथ समान नहीं है। यदि यह होता, तो आपकी ढाल दिशा नहीं बदलती; क्योंकि यदि आप हमेशा अपने इष्टतम की ओर जाते हैं, तो आपकी दिशा वेक्टर हमेशा इष्टतम होगी। लेकिन, ऐसी बात नहीं है। यदि यह मामला था, तो आपके क्रम को हर पुनरावृत्ति की गणना करने में क्यों परेशान किया जाए?


3

अन्य उत्तर GD / SGD के लिए कुछ कष्टप्रद दर-अभिसरण मुद्दों पर प्रकाश डालते हैं, लेकिन आपकी टिप्पणी "SGD अंततः रूपांतरित हो सकती है ..." हमेशा सही नहीं होती है (शब्द "के बारे में पांडित्यपूर्ण उपयोग टिप्पणी की अनदेखी" क्योंकि यह आपको लगता है) "मर्जी")।

SGD के साथ काउंटर-उदाहरण खोजने के लिए एक अच्छी चाल यह है कि यदि प्रत्येक डेटा बिंदु समान है, तो आपकी लागत फ़ंक्शन नियतात्मक है। अत्यंत पैथोलॉजिकल उदाहरण की कल्पना करें जहां हमारे पास एक डेटा बिंदु है और हमारे पास एक मॉडल है कि कैसे हमारे सिस्टम को एकल पैरामीटर आधार पर काम करना चाहिए

(x0,y0)=(1,0)
α
f(x,α)=α2αx.

हमारे लागत फ़ंक्शन के रूप में MSE के साथ, यह एक उत्तल फ़ंक्शन को सरल करता है। मान लीजिए कि हम अपने सीखने की दर खराब तरीके से चुनते हैं ताकि हमारा अद्यतन नियम इस प्रकार है:अब, हमारे लागत समारोह में एक न्यूनतम , लेकिन अगर हम शाब्दिक रूप से अलावा कहीं भी शुरू तो बस शुरुआती बिंदु और बीच चक्र के बीच में उछाल होगा और कभी भी अभिसरण नहीं होगा

(f(x0,α)y0)2=α2α,
β
αn+1=αnβ(2αn1)=αn(2αn1)=1αn.
α=12p=12p1p

मुझे यकीन नहीं है कि उत्तलता सामान्य एसडब्ल्यूई के लिए मौजूद कुछ बदतर व्यवहार को तोड़ने के लिए पर्याप्त है, लेकिन यदि आप अपने लागत फ़ंक्शन के लिए क्यूबिक्स के रूप में भी जटिल कार्य करने की अनुमति देते हैं, तो डोमेन के घने उपसमुच्चय पर बाउंस हो सकता है और कभी भी कहीं भी परिवर्तित नहीं हो सकता है या किसी भी चक्र से संपर्क करें।

SGD किसी भी परिमित लंबाई के चक्रों को प्राप्त कर सकता है / प्राप्त कर सकता है, की ओर , (संकेतन को बहाना) की ओर दोलन कर सकता है , और अन्य पैथोलॉजिकल व्यवहार के टन हो सकता है।± ±

पूरी स्थिति के बारे में एक दिलचस्प बात यह है कि इसमें बेशुमार कई कार्य मौजूद हैं (जैसे डब्ल्यूडब्ल्यूडी) जो इनपुट के रूप में मनमाना उत्तल कार्य लेते हैं और फिर एक अद्यतन नियम का उत्पादन करते हैं जो हमेशा वैश्विक न्यूनतम (यदि मौजूद है) में परिवर्तित हो जाता है। भले ही वैचारिक रूप से उनमें से कुछ भी मौजूद हों, उत्तल अनुकूलन के हमारे सर्वोत्तम प्रयासों में पैथोलॉजिकल काउंटरटेम्पेन्स हैं। किसी तरह एक सरल / सहज / परफॉर्मेंट अपडेट नियम का विचार एक सही सही अपडेट नियम के विचार के लिए काउंटर चलाता है।


1
इस अवलोकन के लिए +1। लेकिन, यह थोड़ा बुरा विकल्प है और नियमित ढाल वंश के मामले में भी बुरा होगा। यह एक अच्छी टिप्पणी है, लेकिन यह वास्तव में इस मुद्दे से संबंधित नहीं है कि क्या समाधान के प्रति सबसे बड़ा वंश पथ इंगित करता है या नहीं, यह बहुत बड़े चरण-आकार के मुद्दे के बजाय संबंधित है जो कि विचलन अद्यतन का कारण हो सकता है। β=1
सेक्सटस एम्पिरिकस

1
ध्यान दें कि SGD अभिसरण प्रमाण एक घटते हुए आकार का मान लेता है ...
Jan Kukacka

@MartijnWeterings अच्छा अवलोकन। मुझे लगता है कि मेरा उदाहरण वास्तव में सही दिशा इंगित करता है। क्या मुझे इसे 2 डी उदाहरण के साथ अपडेट करना चाहिए जो कभी सही दिशा और डाइवरेज को इंगित नहीं करता है?
हंस मुसग्रेव

@MartijnWeterings सहमत, एक बुरा विकल्प है। किसी भी , हालांकि एक पैथोलॉजिकल कॉस्ट फंक्शन मौजूद है, जिसके लिए वह विफल रहता है। सबसे आसान लोगों में से एक से उपजा हैβ > 0 β ( एक्स , α ) = β=1β>0βf(x,α)=α2αxβ.
हंस मुसाग्रेव

@JanKukacka यह SGD का एक सामान्य संशोधन है जो एक समान दोष से ग्रस्त है। लागत फ़ंक्शन एक परबोला होने के बजाय, आप चुनते हैं ताकि लागत फ़ंक्शन एक सममित उत्तल फ़ंक्शन हो, जो न्यूनतम से लेकर की शीतलन दर का मुकाबला करने के लिए दोनों दिशाओं में पर्याप्त तेज़ी से बढ़ रहा है । SGD अभिसरण प्रमाण मैंने केवल संभावना 1 के साथ देखे हैं और संभावित कार्यों के स्थान पर विशिष्ट उपायों के साथ संभाव्यता 0 के साथ मौजूद ऐसे बुरी तरह से चुने गए लागत कार्यों पर भरोसा करते हैं। βfβ
हंस मुसग्रेव

2

हो सकता है कि इस सवाल के जवाब के लिए त्वरित अपडेट की आवश्यकता हो। ऐसा लगता है कि गैर-उत्तल मामले में भी एसडब्ल्यूई एक वैश्विक न्यूनतम पैदावार देता है (उत्तल सिर्फ एक विशेष मामला है):

Star-Convex Path, Anonymous लेखकों , ICLL 2019 में डबल-ब्लाइंड रिव्यू के तहत पेपर के माध्यम से ग्लोबल कम से कम ग्लोबल लर्निंग में प्रवेश

https://openreview.net/pdf?id=BylIciRcYQ

लेखक नॉनवॉवेक्स ऑप्टिमाइज़ेशन समस्याओं के लिए एक वैश्विक न्यूनतम पर एसडब्ल्यूई के अभिसरण को स्थापित करते हैं जो आमतौर पर तंत्रिका नेटवर्क प्रशिक्षण में सामने आते हैं। तर्क निम्नलिखित दो महत्वपूर्ण गुणों का शोषण करता है: 1) प्रशिक्षण नुकसान शून्य मान (लगभग) प्राप्त कर सकता है; 2) SGD एक स्टार-उत्तल पथ का अनुसरण करता है। इस तरह के संदर्भ में, हालांकि SGD को लंबे समय से एक यादृच्छिक एल्गोरिदम माना जाता है, कागज से पता चलता है कि यह आंतरिक रूप से निर्धारक तरीके से वैश्विक न्यूनतम में परिवर्तित होता है।

यह हालांकि नमक के एक अनाज के साथ लिया जाना चाहिए। कागज की समीक्षा अभी भी चल रही है।

स्टार-उत्तल पथ की धारणा संकेत देती है कि प्रत्येक पुनरावृत्ति में ढाल कहाँ इंगित करेगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.