स्टोकेस्टिक क्रमिक वंश स्थानीय न्यूनतम की समस्या से कैसे बचा जा सकता है?


19

मुझे पता है कि स्टोकेस्टिक ग्रेडिएंट वंश में यादृच्छिक व्यवहार है, लेकिन मुझे नहीं पता कि क्यों।
क्या इस बारे में कोई स्पष्टीकरण है?


10
आपके सवाल का आपके शीर्षक के साथ क्या संबंध है?
नील जी

जवाबों:


22

स्टोकेस्टिक ग्रेडिएंट (SG) एल्गोरिथ्म एक सिम्युलेटेड एनेलिंग (SA) एल्गोरिथम की तरह व्यवहार करता है, जहां SG की सीखने की दर SA के तापमान से संबंधित होती है। एसजी द्वारा पेश की गई यादृच्छिकता या शोर स्थानीय न्यूनतम से बेहतर न्यूनतम तक पहुंचने की अनुमति देता है। बेशक, यह इस बात पर निर्भर करता है कि आप सीखने की दर में कितनी तेजी से कमी करते हैं। तंत्रिका नेटवर्क (पीडीएफ) में स्टोचैस्टिक लर्निंग की धारा 4.2 पढ़ें , जहां इसे और अधिक विस्तार से समझाया गया है।


4
धारा 4.1as को अच्छी तरह से oveelook न करें, जहां दूसरा प्रमेय nonconvex कार्यों के एक सीमित मामले के लिए है, यह कहते हुए कि यह केवल (अनंत नमूनों के साथ) ढाल के साथ कुछ बिंदु तक परिवर्तित होता है। यह वैश्विक न्यूनतम नहीं भी हो सकता है या अधिकतम भी हो सकता है। । और अधिक व्यावहारिक कारणों जैसे वितरित शिक्षा के लिए अधिक दिलचस्प है, निश्चित रूप से नहीं कि यह स्थानीय न्यूनतम से "बचना" होगा।
नील

2

स्टोकेस्टिक ग्रेडिएंट डिसेंट में पैरामीटर हर अवलोकन के लिए अनुमानित हैं, क्योंकि नियमित ग्रेडिएंट डीसेंट (बैच ग्रेडिएंट डीसेंट) में पूरे नमूने का विरोध किया गया है। यह वह है जो इसे बहुत यादृच्छिकता देता है। स्टोकेस्टिक ग्रेडिएंट डिसेंट का रास्ता अधिक स्थानों पर भटकता है, और इस तरह एक स्थानीय न्यूनतम के "कूद" जाने की अधिक संभावना है, और एक वैश्विक न्यूनतम (नोट *) ढूंढें। हालांकि, स्टोकेस्टिक ग्रेडिएंट वंश अभी भी स्थानीय न्यूनतम में फंस सकता है।

नोट: यह सीखने की दर को स्थिर रखने के लिए आम है, इस मामले में स्टोकेस्टिक क्रमिक वंश अभिसरण नहीं करता है; यह बस उसी बिंदु पर घूमता है। हालांकि, अगर समय के साथ सीखने की दर कम हो जाती है, तो कहते हैं, यह विपरीत संख्या में पुनरावृत्तियों से संबंधित है तो स्टोकेस्टिक क्रमिक वंश में परिवर्तित हो जाएगा।


यह सच नहीं है कि स्टोकेस्टिक ग्रेडिएंट डिसेंट वास्तव में अभिसरण नहीं होता है और बस एक निश्चित बिंदु के आसपास चमत्कार करता है। अगर सीखने की दर स्थिर रखी जाती तो ऐसा ही होता। हालांकि, सीखने की दर शून्य हो जाती है क्योंकि इस तरह, जब एल्गोरिथ्म एक उत्तल फ़ंक्शन के न्यूनतम के करीब होता है, तो यह दोलन बंद कर देता है और परिवर्तित करता है। स्टोकेस्टिक ग्रेडिएंट के अभिसरण के प्रमाण में सीखने की दरों की श्रृंखला पर लगाए गए शर्तें हैं। रॉबिंस और मोनरो के मूल पेपर के समीकरण (6) और (27) देखें।
क्लारा

2

जैसा कि पिछले उत्तरों में पहले ही बताया जा चुका है, स्टोचैस्टिक ग्रेडिएंट डिसेंट में बहुत नॉइसियर त्रुटि सतह है क्योंकि आप प्रत्येक नमूने का मूल्यांकन कर रहे हैं। जब आप प्रत्येक युग में बैच ग्रेडिएंट डिसेंट में वैश्विक न्यूनतम की ओर एक कदम उठा रहे हैं (प्रशिक्षण सेट पर पास), आपके स्टोचस्टिक ग्रेडिएंट डिसेंट ग्रेडिएंट के व्यक्तिगत चरणों को हमेशा मूल्यांकन नमूने के आधार पर वैश्विक न्यूनतम की ओर इंगित नहीं करना चाहिए।

दो-आयामी उदाहरण का उपयोग करके इसे देखने के लिए, एंड्रयू एनजी के मशीन लर्निंग क्लास के कुछ आंकड़े और चित्र यहां दिए गए हैं।

पहला ढाल वंश:

यहाँ छवि विवरण दर्ज करें

दूसरा, स्टोकेस्टिक ग्रेडिएंट वंश:

यहाँ छवि विवरण दर्ज करें

निचले आंकड़े में लाल वृत्त स्पष्ट करेगा कि स्टोचैस्टिक ग्रेडिएंट वंश वैश्विक न्यूनतम के आसपास के क्षेत्र में कहीं "अपडेट" करता रहेगा यदि आप एक निरंतर सीखने की दर का उपयोग कर रहे हैं।

तो, यहाँ कुछ व्यावहारिक सुझाव दिए गए हैं यदि आप स्टोकेस्टिक ग्रेडिएंट वंश का उपयोग कर रहे हैं:

1) प्रत्येक युग (या "मानक" संस्करण में पुनरावृत्ति) से पहले प्रशिक्षण सेट को फेरबदल करें

2) वैश्विक न्यूनतम के करीब "एनील" के लिए एक अनुकूली सीखने की दर का उपयोग करें


आप प्रत्येक युग से पहले प्रशिक्षण सेट को फेरबदल क्यों करना चाहेंगे? SGD का एल्गोरिथ्म प्रशिक्षण के उदाहरणों को यादृच्छिक रूप से बताता है।
व्लादिस्लाव डोवगलकेस

फेरबदल मूल रूप से एक ऐसा तरीका है जिससे यह उन प्रशिक्षण नमूनों को यादृच्छिक रूप से चुन सकता है। मेरे कार्यान्वयन में, मैं आमतौर पर प्रत्येक युग से पहले प्रशिक्षण सेट को फेरबदल करता हूं और फिर- forफेरबदल के माध्यम से

2
Hm, विकिपीडिया पर, SGD एल्गोरिथ्म को "प्रतिस्थापन के बिना" के रूप में वर्णित किया गया है, हालांकि, बॉटलॉ ने इसका वर्णन किया है (बॉथू, लीन)। स्टोचस्टिक ढाल वंश के साथ बड़े पैमाने पर मशीन सीखने। "COMPSTAT'2010 की कार्यवाही। Physica-Verlag-Verlag HD, 2010. 177-186।), और मुझे लगता है कि मैं यहाँ इस विकिपीडिया प्रविष्टि से अधिक बोटाउ पर भरोसा करना चाहूंगा।

4
@xeon इस पेपर को देखें , जो तर्क देता है कि प्रतिस्थापन के बिना नमूना बेहतर है। मेरी समझ यह है कि प्रतिस्थापन के बिना अनुभवजन्य रूप से बेहतर हो जाता है, लेकिन सैद्धांतिक विश्लेषण अभी हाल तक उपलब्ध नहीं थे।
डगल

1
@xeon मैं सिर्फ एंड्रयू Ng के पाठ्यक्रम से अपनी पीडीएफ स्लाइड्स को देखता था, और ऐसा लगता है कि उन्होंने इसे विकिपीडिया ("प्रतिस्थापन के बिना" संस्करण) के रूप में वर्णित किया है जैसे बोटाउ नहीं। मैंने यहां
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.