यदि फ़ंक्शन सुचारू है तो यह धीरे-धीरे वंश को गति क्यों देता है?


10

अब मैंने "हैंड्स-ऑन मशीन लर्निंग विद स्किकिट-लर्न एंड टेन्सरफ्लो" नामक एक पुस्तक पढ़ी और अध्याय 11 पर, इसमें ELU (एक्सपोनेंशियल ReLU) के स्पष्टीकरण पर निम्नलिखित विवरण दिया है।

तीसरा, फ़ंक्शन लगभग हर जगह सुचारू है, जिसमें लगभग z = 0 शामिल है, जो ग्रेडिएंट डिसेंट को गति देने में मदद करता है, क्योंकि यह z = 0 के बाएं और दाएं जितना उछलता नहीं है।

यहाँ छवि विवरण दर्ज करें

zऊपर ग्राफ पर एक्स-एक्सिस का मतलब है। मैं समझता हूं कि व्युत्पन्न चिकनी है क्योंकि z < 0रेखा में वक्र है और उस दायरे में व्युत्पन्न अब नहीं के बराबर है 0

हालाँकि, ऐसा क्यों है कि यदि फ़ंक्शन "z = 0 के आसपास" सहित हर जगह सुचारू है, तो यह ग्रेडिएंट डिसेंट को गति देता है?


मैं सही एसई में बीटीडब्ल्यू हूं? डेटा साइंस, आर्टिफिशियल इंटेलिजेंस, और क्रॉस मान्य, (और मैथ्स) भी ... मुझे लगता है कि कई विषय एक-दूसरे के साथ अत्यधिक जुड़े हुए हैं ...
15

2
मुझे लगता है कि आप इस सवाल को यहां या तो डेटा साइंस पर या क्रॉस वैलिडेट पर पोस्ट करने के लिए सुरक्षित होंगे। संभवतः यह आर्टिफिशियल इंटेलिजेंस के लिए भी ठीक है, लेकिन मैं उस साइट से कम परिचित हूं।
नील स्लेटर

अच्छा प्रश्न। चिकनाई आपको अस्थायी रूप से बच्चे के कदम उठाने के बजाय सही दिशा में साहसिक कदम उठाने की अनुमति देती है क्योंकि अगले चरण में ढाल काफी बदल सकती है। एक अभिसरण विश्लेषण के लिए, उदाहरण के लिए, चिकना और मजबूत उत्तल अनुकूलन के लिए नेस्टरोव की त्वरित
Emre

@NeilSlater AI में बहुत अस्पष्ट गुंजाइश है। वे ऐसे सवालों को बंद कर देते हैं। तो, डी एस और सीवी सबसे अच्छा विकल्प :) होगा
Dawny33

जवाबों:


1

मेरा अनुमान है कि यह व्युत्पन्न के कारण है, क्योंकि ReLU में 0. पर एक असंतुलित व्युत्पन्न है इसलिए यदि आप परिभाषा का उपयोग करते हैं:

ff(x+ϵ)f(xϵ)2ϵ

तथा x 0 के बहुत करीब है, आपको उनमें से कई 'कूद' मिलेंगे।


0

एक प्रारंभिक: एक समारोह के तीन गुण हैं जो यहां प्रासंगिक हैं: निरंतर, एकरस और अलग। RELU निरंतर है और मोनोटोनिक अखरोट z = 0 पर भिन्न नहीं है। घातीय रिले या ELU उन सभी विशेषताओं में से तीन है।

अंतर या ढाल आपको एक दिशा देता है। जब किसी फ़ंक्शन का व्युत्पन्न एक बिंदु पर अपरिभाषित होता है, तो उस बिंदु पर ढाल की दिशा अनिश्चित होती है।

ढाल वंश को लागू करते समय, हम ऐसे मापदंडों को लगातार संशोधित करना चाहते हैं जैसे कि नुकसान फ़ंक्शन लगातार कम हो जाता है, जो यह कहते हुए कि हम न्यूनतम की ओर बढ़ते रहना चाहते हैं।

जब किसी बिंदु पर एक हानि फ़ंक्शन का व्युत्पन्न अपरिभाषित होता है, तो ढाल अनिश्चित होता है। इसका मतलब यह है कि ढाल मूल संभवतः गलत दिशा में आगे बढ़ सकता है। इस अनिश्चितता से होने वाली देरी की मात्रा सीखने की दर और अन्य अति-मापदंडों पर निर्भर करती है। हाइपर-मापदंडों के बावजूद, सांख्यिकीय रूप से, z = 0 पर RELU में अपरिभाषित व्युत्पन्न, ढाल वंश के अभिसरण को धीमा करने में योगदान देता है।


यह बहुत संभावना नहीं है कि पैरामीटर आरंभीकरण के बाद बिल्कुल z = 0 हो जाता है।
पीटर

0

तेजी से या कम होना एक सापेक्ष शब्द है और इसकी तुलना के संदर्भ में समझा जाना चाहिए। इसलिए, इसे समझने के लिए, हमें पहले यह विचार करना चाहिए कि अन्य प्रकार के सक्रियण फ़ंक्शन के साथ ढाल वंश कैसे काम करता है।

उदाहरण सेटअप

के साथ एक एमएलपी पर विचार करें n आकार की छिपी हुई परतें।

z1=W1x+b1

a1=f(z1)

...

zn=Wnan1+bn

y=f(zn)

कहाँ पे f सक्रियण कार्य है।

तन और सिगमॉइड - गायब होने वाला ग्रेडिएंट

मान लीजिए fतन या सिग्मॉइड सक्रियण फ़ंक्शन है। उन कार्यों की व्युत्पत्ति -1 से 1 के बीच या औपचारिक रूप से बंधी होती हैf(x)(1,1) किसी के लिए x

यह "धीरे-धीरे लुप्त होने वाली समस्या" के रूप में जाना जाने वाले गहन सीखने में एक बहुत ही महत्वपूर्ण समस्या का कारण बनता है। के व्युत्पन्न पर विचार करते हैंy wrt W1। चेन नियम से, हमारे पास है

dfdW1=dfdWndWndWn1...dW2dW1

और किसी के लिए 0<i<n, नोटिस जो

dXidXi1=f(Wi1ai2+bi1)×ai2(1,1)

(पहला कार्यकाल बीच का है (1,1) चूंकि f जैसा कि पहले चर्चा की जा चुकी है ai2 के बीच भी है (1,1) इनपुट मूल्य को स्क्वैश के रूप में।)

इसलिए dfdW1मूल रूप से प्रत्येक (0, 1) के बीच बहुत सारे शब्दों का एक उत्पाद है। जितना बड़ाn (गहरा नेटवर्क) उस शब्द का अधिक है जिसे हमें गुणा और परिणाम के रूप में करने की आवश्यकता है dfdW1तेजी से छोटा हो जाता है। इस घातीय संबंध के कारण, ग्रेडिएंट जल्दी से इतना छोटा हो जाता है कि हम इसे प्रभावी रूप से शून्य मान सकते हैं। शून्य ग्रेडिएंट होने का नतीजा यह नहीं है कि कोई भी सीख बिल्कुल नहीं हो सकती क्योंकि ग्रेडिएंट डिसेंट के लिए हमारा अपडेट नियम उस ग्रेडिएंट पर आधारित है।

RELU और मृत न्यूरॉन

Relu का आविष्कार लुप्त हो रही ढाल समस्या से निपटने के लिए किया गया है क्योंकि इसकी व्युत्पत्ति हमेशा 1 होती है ai>0 तो कब f क्या हमारे पास RELU है:

dXidXi1=ai2
dfdW1=a1a2a3...an1

यह सब अच्छा और अच्छा है x>0 लेकिन जब भी चीजें टूटती हैं x<0, इस समय न केवल ढाल शून्य के बहुत करीब है, यह एक शुद्ध शून्य है। एक बार जब एक न्यूरॉन वहां पहुंचता है, तो वापस जाने का मौका नहीं मिलता है। इसलिए इसे "डेड न्यूरॉन" समस्या के रूप में जाना जाता है

लीक RELU और ELU

लीक RELU और ELU RELU के बाद का प्राकृतिक विकास है। वे RELU के समान होते हैं जैसे कि व्युत्पन्न 1 के बराबरx>0 लेकिन शून्य व्युत्पन्न से बचने से "मृत न्यूरॉन" से बचा जाता है x<1

मैं दोनों के बीच अंतर के लिए मूल पेपर उद्धृत करता हूं ।

जबकि LReLUs और PReLUs में नकारात्मक मूल्य हैं, वे भी एक शोर-मजबूत निष्क्रियता राज्य सुनिश्चित नहीं करते हैं। ईएलयू छोटे आदानों के साथ एक नकारात्मक मूल्य पर संतृप्त होता है और इस तरह आगे प्रसार और सूचना को कम करता है।

सहज व्याख्या निम्नलिखित की तरह जाती है। ईएलयू में, जब भी एक्स काफी छोटा हो गया, ढाल वास्तव में छोटा और संतृप्त हो गया (उसी तरह यह तन और सिगमॉइड के लिए होता है)। छोटे ढाल का मतलब है कि सीखने का एल्गोरिथ्म संतृप्त न्यूरॉन्स के साथ सहभागिता के बारे में चिंता किए बिना अन्य भार के ट्यूनिंग पर ध्यान केंद्रित कर सकता है।

डिग्री 2 के एक बहुपद पर विचार करें जिसे 3-डी अंतरिक्ष में एक चिकनी सतह के रूप में दर्शाया जा सकता है। स्थानीय न्यूनतम खोजने के लिए, एक ढाल वंशज एल्गोरिथ्म को एक्स और वाई-दिशा दोनों में स्थिरता पर विचार करना होगा। यदि एक्स-दिशा और वाई-दिशा दोनों में ढाल नकारात्मक है, तो यह स्पष्ट नहीं है कि कौन सा तरीका बेहतर है। इसलिए बीच में कहीं रास्ता चुनना समझदारी है। लेकिन क्या होगा अगर हम पहले से ही सब कुछ जानते हैं कि एक्स-दिशा में फ्लैट (शून्य ग्रेडिएंट) है, तो यह वाई-दिशा के लिए जाने के लिए नो-ब्रेनर बन जाता है। या दूसरे शब्द में, आप खोज करते हैं कि स्थान बहुत छोटा हो गया है।

विशेष लेख

गहन सीखने में, पर्याप्त अनुभवजन्य साक्ष्य या गहराई से समझ के बिना इसके समर्थन के लिए बहुत सारे दावे हैं। ईएलयू के मामले में, जबकि यह सच हो सकता है कि इसके परिणामस्वरूप कुछ डेटासेट के लिए तेजी से अभिसरण होता है, यह भी सच हो सकता है कि यह सीखने के एल्गोरिथ्म को एक अलग डेटासेट के लिए स्थानीय अधिकतम पर अटक जाता है। हम अभी तक पर्याप्त नहीं जानते हैं।


0

मेरे पास एक सहज धारणा है कि क्यों चिकनी कार्य अनुकूलन के लिए तेज़ हैं लेकिन कोई गणितीय प्रमाण या कुछ भी नहीं।

भार में परिवर्तन को निर्धारित करने के लिए ग्रेडिएंट वंश सक्रियण फ़ंक्शन के व्युत्पन्न की गणना करता है। जब सक्रियण फ़ंक्शन में हार्ड कट होता है (जैसे ReLu के लिए z = 0 पर) तो यूनिट की सक्रियता वज़न बदलते समय विशिष्ट डेटा बिंदुओं के लिए मौलिक रूप से (यानी हमेशा शून्य या रैखिक) बदल सकती है।

अन्य भार को विशिष्ट डेटा बिंदुओं के लिए एक विशिष्ट इकाई के इस मौलिक रूप से भिन्न व्यवहार के अनुकूल होने की आवश्यकता है। यदि, हालांकि, अगले युग के दौरान यूनिट का व्यवहार फिर से मौलिक रूप से बदल जाता है, तो नेटवर्क पिछले युग में परिवर्तनों की ओर ध्यान देता है।

एक चिकनी कार्य के साथ इस तरह के कोई मौलिक परिवर्तन नहीं होते हैं। और इस प्रकार नेटवर्क अधिक धीरे-धीरे स्थिर हो सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.