क्या ढाल मूल हमेशा एक इष्टतम में परिवर्तित होता है?


21

मैं सोच रहा हूं कि क्या कोई ऐसा परिदृश्य है जिसमें ढाल मूल न्यूनतम में परिवर्तित नहीं होता है।

मुझे पता है कि धीरे-धीरे वंशज को वैश्विक अनुकूलता में परिवर्तित करने की गारंटी नहीं है। मुझे यह भी पता है कि यह एक इष्टतम से विचलन हो सकता है अगर, कहते हैं, कदम का आकार बहुत बड़ा है। हालांकि, यह मुझे लगता है कि, अगर यह कुछ इष्टतम से विचलन करता है, तो यह अंततः दूसरे इष्टतम पर जाएगा।

इसलिए, ढाल मूल को स्थानीय या वैश्विक इष्टतम में परिवर्तित करने की गारंटी दी जाएगी। क्या वह सही है? यदि नहीं, तो क्या आप कृपया एक मोटा प्रतिरूप प्रदान कर सकते हैं?


1
उम्मीद है कि यह लिंक भविष्य में मदद करेगा .. datascience.stackexchange.com/a/28417/35644
आदित्य

1
सबूत, चित्र और कोड सहित 3 ठोस और सरल उदाहरणों के लिए इस उत्तर को देखें , जो ढाल के वंश का एक एनीमेशन बनाता है
ओरेन मिलमैन

जवाबों:


28

ग्रेडिएंट डिसेंट एक एल्गोरिथ्म है जिसे इष्टतम बिंदुओं को खोजने के लिए डिज़ाइन किया गया है, लेकिन ये इष्टतम बिंदु आवश्यक रूप से वैश्विक नहीं हैं। और हां अगर ऐसा होता है कि यह एक स्थानीय स्थान से भिन्न होता है तो यह दूसरे इष्टतम बिंदु में परिवर्तित हो सकता है लेकिन इसकी संभावना बहुत अधिक नहीं है। कारण यह है कि कदम का आकार बहुत बड़ा हो सकता है जो यह संकेत देता है कि यह एक इष्टतम बिंदु और संभावना को पुनरावृत्त करता है कि यह दोलन अभिसरण की तुलना में बहुत अधिक है।

ढाल वंश के बारे में दो मुख्य दृष्टिकोण हैं, मशीन सीखने का युग और गहरा सीखने का युग। मशीन लर्निंग युग के दौरान यह माना जाता था कि ढाल वंशज स्थानीय / वैश्विक इष्टतम पाएंगे, लेकिन गहन शिक्षण युग में जहां इनपुट विशेषताओं का आयाम बहुत अधिक है, यह व्यवहार में दिखाया गया है कि सभी सुविधाओं के इष्टतम मूल्य में स्थित होने की संभावना एक बिंदु पर बहुत अधिक नहीं है और लागत कार्यों में इष्टतम स्थान देखने के लिए, ज्यादातर समय काठी बिंदु देखे जाते हैं। यह एक कारण है कि बहुत सारे डेटा और प्रशिक्षण युगों के साथ प्रशिक्षण गहन शिक्षण मॉडल को अन्य एल्गोरिदम के बेहतर प्रदर्शन का कारण बनता है। इसलिए यदि आप अपने मॉडल को प्रशिक्षित करते हैं, तो यह एक चक्कर लगाएगा या ढलान पर जाने के लिए अपना रास्ता ढूंढेगा और काठी के बिंदुओं में फंस नहीं जाएगा, लेकिन आपके पास उचित कदम आकार होना चाहिए।

अधिक अंतर्ज्ञान के लिए मैं आपको यहां और यहां संदर्भित करने का सुझाव देता हूं ।


3
बिल्कुल सही। ये समस्याएं हमेशा सिद्धांत रूप में पॉप अप होती हैं, लेकिन वास्तविक अभ्यास में शायद ही कभी। इतने सारे आयामों के साथ, यह कोई समस्या नहीं है। आपके पास एक चर में स्थानीय मिनीमा होगा, लेकिन दूसरे में नहीं। इसके अलावा, मिनी-बैच या स्टोकेस्टिक ढाल वंश किसी भी स्थानीय मिनीमाता से बचने में मदद करता है।
रिकार्डो क्रूज़

3
@ रिकार्डोक्रूज़ हां, मैं सहमत हूं सर
मीडिया

12

आपके द्वारा बताए गए बिंदुओं (गैर-वैश्विक न्यूनतम पर अभिसरण, और बड़े कदम के आकार संभवत: गैर-अभिसरण एल्गोरिदम के लिए अग्रणी) से, "इन्फ्लेक्शन रेंज" भी एक समस्या हो सकती है।

निम्नलिखित "रिकलिनर कुर्सी" फ़ंक्शन के प्रकार पर विचार करें।

यहाँ छवि विवरण दर्ज करें

जाहिर है, इसका निर्माण किया जा सकता है ताकि बीच में एक सीमा हो जहां ग्रेडिएंट 0 वेक्टर हो। इस सीमा में, एल्गोरिथ्म को अनिश्चित काल तक अटकाया जा सकता है। आमतौर पर इन्फ्लेशन पॉइंट्स को स्थानीय एक्सट्रैमा नहीं माना जाता है।


4

एक वैश्विक इष्टतम या एक स्थानीय इष्टतम तक पहुंचने के लिए आकस्मिक ढाल की गारंटी नहीं है! ऐसे बिंदु हैं जहां ढाल बहुत छोटा है, जो ऑप्टिमा (विभक्ति अंक, काठी बिंदु) नहीं हैं। ग्रेडिएंट डिसेंट फंक्शन लिए एक बिंदु परिवर्तित हो सकता है ।f ( x ) = x 3x=0f(x)=x3


3

[नोट ५ अप्रैल २०१ ९: कई नए परिणामों के साथ पेपर का एक नया संस्करण arXiv पर अपडेट किया गया है। हम मोमेंटम और एनएजी के बैकट्रैकिंग संस्करणों को भी पेश करते हैं, और बैकग्राउंडिंग ग्रैडेंट के लिए उसी धारणा के तहत अभिसरण को साबित करते हैं।

स्रोत कोड लिंक पर GitHub पर उपलब्ध हैं: https://github.com/hank-nguyen/MBT-optimizer

हमने DNN पर आवेदन करने के लिए एल्गोरिदम में सुधार किया, और अत्याधुनिक एल्गोरिदम जैसे MMT, NAG, एडम, एडमैक्स, अडाग्राद, से बेहतर प्रदर्शन प्राप्त किया ...

हमारे एल्गोरिदम की सबसे विशेष विशेषता यह है कि वे स्वचालित हैं, आपको सामान्य अभ्यास के रूप में सीखने की दरों के मैनुअल फाइन-ट्यूनिंग करने की आवश्यकता नहीं है। हमारी स्वचालित फाइन-ट्यूनिंग प्रकृति में एडम, एडमैक्स, एडग्राड, ... आदि से भिन्न है। अधिक विवरण कागज में हैं।

]

बहुत हाल के परिणामों के आधार पर: इस पेपर में मेरे संयुक्त काम में https://arxiv.org/abs/1808.05160

हमने दिखाया कि बैकग्राउंडिंग ग्रैडिएंट डिसेंट, जब एक मनमाना C ^ 1 फंक्शन लागू किया जाता है, तो केवल काउंटेबल नंबर की एक महत्वपूर्ण संख्या के साथ, हमेशा या तो एक क्रिटिकल पॉइंट में परिवर्तित हो जाएगा या इन्फिनिटी में बदल जाएगा। यह स्थिति सामान्य फ़ंक्शन के लिए संतुष्ट है, उदाहरण के लिए सभी मोर्स फ़ंक्शन के लिए। हमने यह भी दिखाया कि सीमा बिंदु के लिए एक काठी बिंदु होना बहुत दुर्लभ है। इसलिए यदि आपके सभी महत्वपूर्ण बिंदु गैर-पतित हैं, तो एक निश्चित अर्थ में सीमा बिंदु सभी न्यूनतम हैं। [कृपया मानक ढाल मूल के मामले में ज्ञात परिणामों के लिए उद्धृत पेपर में संदर्भ भी देखें।]f

उपरोक्त के आधार पर, हमने गहन शिक्षण में एक नई पद्धति का प्रस्ताव किया जो वर्तमान अत्याधुनिक विधियों के बराबर है और इसे सीखने की दरों के मैनुअल फाइन-ट्यूनिंग की आवश्यकता नहीं है। ( संक्षेप में , विचार यह है कि आप एक निश्चित मात्रा में बैकग्राउंडिंग ग्रेडिएंट डिसेंट को चलाते हैं, जब तक कि आप यह नहीं देख लेते कि सीखने की दर, जो प्रत्येक पुनरावृत्ति के साथ बदल जाती है, स्थिर हो जाती है। हम इस स्थिरीकरण की अपेक्षा करते हैं, विशेष रूप से एक महत्वपूर्ण बिंदु पर)। C ^ 2 और गैर-पतित है, क्योंकि मैंने ऊपर दिए गए अभिसरण परिणाम के कारण। उस बिंदु पर, आप मानक ढाल मूल विधि पर स्विच करते हैं। कृपया अधिक विवरण के लिए उद्धृत पेपर देखें। यह विधि अन्य इष्टतम एल्गोरिदम पर भी लागू की जा सकती है। ।)

पुनश्च मानक ढाल वंश विधि के बारे में आपके मूल प्रश्न के बारे में, मेरे ज्ञान में केवल उस मामले में जहां मानचित्र का व्युत्पन्न विश्व स्तर पर लिप्सचित्ज़ है और सीखने की दर काफी कम है कि मानक ढाल वंश विधि अभिसरण करने के लिए सिद्ध होती है। [अगर ये स्थितियां संतुष्ट नहीं हैं, तो सरल प्रति-उदाहरण हैं जो दिखाते हैं कि कोई अभिसरण परिणाम संभव नहीं है, कुछ के लिए उद्धृत पेपर देखें।] ऊपर उल्लिखित कागज में, हमने तर्क दिया कि लंबे समय में बैकग्राउंडिंग ग्रेडिएंट डिसेंट विधि बन जाएगी। मानक ढाल मूल विधि, जो यह बताती है कि मानक ढाल वंश विधि आमतौर पर व्यवहार में अच्छी तरह से क्यों काम करती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.