तेजी से या कम होना एक सापेक्ष शब्द है और इसकी तुलना के संदर्भ में समझा जाना चाहिए। इसलिए, इसे समझने के लिए, हमें पहले यह विचार करना चाहिए कि अन्य प्रकार के सक्रियण फ़ंक्शन के साथ ढाल वंश कैसे काम करता है।
उदाहरण सेटअप
के साथ एक एमएलपी पर विचार करें n आकार की छिपी हुई परतें।
z1=W1x+b1
a1=f(z1)
...
zn=Wnan−1+bn
y=f(zn)
कहाँ पे f सक्रियण कार्य है।
तन और सिगमॉइड - गायब होने वाला ग्रेडिएंट
मान लीजिए fतन या सिग्मॉइड सक्रियण फ़ंक्शन है। उन कार्यों की व्युत्पत्ति -1 से 1 के बीच या औपचारिक रूप से बंधी होती हैf′(x)∈(−1,1) किसी के लिए x।
यह "धीरे-धीरे लुप्त होने वाली समस्या" के रूप में जाना जाने वाले गहन सीखने में एक बहुत ही महत्वपूर्ण समस्या का कारण बनता है। के व्युत्पन्न पर विचार करते हैंy wrt W1। चेन नियम से, हमारे पास है
dfdW1=dfdWndWndWn−1...dW2dW1
और किसी के लिए 0<i<n, नोटिस जो
dXidXi−1=f′(Wi−1ai−2+bi−1)×ai−2∈(−1,1)
(पहला कार्यकाल बीच का है (−1,1) चूंकि f′ जैसा कि पहले चर्चा की जा चुकी है ai−2 के बीच भी है (−1,1) इनपुट मूल्य को स्क्वैश के रूप में।)
इसलिए dfdW1मूल रूप से प्रत्येक (0, 1) के बीच बहुत सारे शब्दों का एक उत्पाद है। जितना बड़ाn (गहरा नेटवर्क) उस शब्द का अधिक है जिसे हमें गुणा और परिणाम के रूप में करने की आवश्यकता है dfdW1तेजी से छोटा हो जाता है। इस घातीय संबंध के कारण, ग्रेडिएंट जल्दी से इतना छोटा हो जाता है कि हम इसे प्रभावी रूप से शून्य मान सकते हैं। शून्य ग्रेडिएंट होने का नतीजा यह नहीं है कि कोई भी सीख बिल्कुल नहीं हो सकती क्योंकि ग्रेडिएंट डिसेंट के लिए हमारा अपडेट नियम उस ग्रेडिएंट पर आधारित है।
RELU और मृत न्यूरॉन
Relu का आविष्कार लुप्त हो रही ढाल समस्या से निपटने के लिए किया गया है क्योंकि इसकी व्युत्पत्ति हमेशा 1 होती है ai>0 तो कब f क्या हमारे पास RELU है:
dXidXi−1=ai−2
dfdW1=a1a2a3...an−1
यह सब अच्छा और अच्छा है x>0 लेकिन जब भी चीजें टूटती हैं x<0, इस समय न केवल ढाल शून्य के बहुत करीब है, यह एक शुद्ध शून्य है। एक बार जब एक न्यूरॉन वहां पहुंचता है, तो वापस जाने का मौका नहीं मिलता है। इसलिए इसे "डेड न्यूरॉन" समस्या के रूप में जाना जाता है
लीक RELU और ELU
लीक RELU और ELU RELU के बाद का प्राकृतिक विकास है। वे RELU के समान होते हैं जैसे कि व्युत्पन्न 1 के बराबरx>0 लेकिन शून्य व्युत्पन्न से बचने से "मृत न्यूरॉन" से बचा जाता है x<1।
मैं दोनों के बीच अंतर के लिए मूल पेपर उद्धृत करता हूं ।
जबकि LReLUs और PReLUs में नकारात्मक मूल्य हैं, वे भी एक शोर-मजबूत निष्क्रियता राज्य सुनिश्चित नहीं करते हैं। ईएलयू छोटे आदानों के साथ एक नकारात्मक मूल्य पर संतृप्त होता है और इस तरह आगे प्रसार और सूचना को कम करता है।
सहज व्याख्या निम्नलिखित की तरह जाती है। ईएलयू में, जब भी एक्स काफी छोटा हो गया, ढाल वास्तव में छोटा और संतृप्त हो गया (उसी तरह यह तन और सिगमॉइड के लिए होता है)। छोटे ढाल का मतलब है कि सीखने का एल्गोरिथ्म संतृप्त न्यूरॉन्स के साथ सहभागिता के बारे में चिंता किए बिना अन्य भार के ट्यूनिंग पर ध्यान केंद्रित कर सकता है।
डिग्री 2 के एक बहुपद पर विचार करें जिसे 3-डी अंतरिक्ष में एक चिकनी सतह के रूप में दर्शाया जा सकता है। स्थानीय न्यूनतम खोजने के लिए, एक ढाल वंशज एल्गोरिथ्म को एक्स और वाई-दिशा दोनों में स्थिरता पर विचार करना होगा। यदि एक्स-दिशा और वाई-दिशा दोनों में ढाल नकारात्मक है, तो यह स्पष्ट नहीं है कि कौन सा तरीका बेहतर है। इसलिए बीच में कहीं रास्ता चुनना समझदारी है। लेकिन क्या होगा अगर हम पहले से ही सब कुछ जानते हैं कि एक्स-दिशा में फ्लैट (शून्य ग्रेडिएंट) है, तो यह वाई-दिशा के लिए जाने के लिए नो-ब्रेनर बन जाता है। या दूसरे शब्द में, आप खोज करते हैं कि स्थान बहुत छोटा हो गया है।
विशेष लेख
गहन सीखने में, पर्याप्त अनुभवजन्य साक्ष्य या गहराई से समझ के बिना इसके समर्थन के लिए बहुत सारे दावे हैं। ईएलयू के मामले में, जबकि यह सच हो सकता है कि इसके परिणामस्वरूप कुछ डेटासेट के लिए तेजी से अभिसरण होता है, यह भी सच हो सकता है कि यह सीखने के एल्गोरिथ्म को एक अलग डेटासेट के लिए स्थानीय अधिकतम पर अटक जाता है। हम अभी तक पर्याप्त नहीं जानते हैं।