Relu में परिभाषा के अनुसार 0 ग्रेडिएंट है, तो फिर x <0 के लिए ग्रेडिएंट वैनिश एक समस्या क्यों नहीं है?


10

परिभाषा के अनुसार, रेलू है max(0,f(x))। फिर इसकी ढाल के रूप में परिभाषित किया गया है 1 if x > 0 and 0 if x < 0:।

क्या इसका मतलब यह नहीं होगा कि ढाल हमेशा 0 है (गायब हो जाती है) जब x <0? तो फिर हम यह क्यों कहते हैं कि रेलू गायब होने की समस्या से ग्रस्त नहीं है?

जवाबों:


5

आप ज्यादातर सही हैं! ReLU में ग्रेडिएंट के गायब होने की समस्या है, लेकिन केवल एक तरफ, इसलिए हम इसे कुछ और कहते हैं: 'डाइंग ReLU समस्या'। अधिक जानकारी के लिए इस स्टैक ओवरफ़्लो प्रतिक्रिया को देखें: तंत्रिका नेटवर्क में "डाइंग रेएलयू" समस्या क्या है?

यह एक छोटा सा शब्दार्थक अंतर है। जब आप मानक ऑपरेटिंग रेंज के बाहर होते हैं तो बहुत सारे कार्य (तन और उपस्कर / सिग्मॉइड) शून्य के करीब होते हैं। यह 'लुप्त हो रही ढाल' का मुद्दा है। जितना बुरा आप प्राप्त करते हैं, उतना ही अच्छा है कि वह अच्छे क्षेत्र में वापस आ जाए। ReLU आप को सकारात्मक दिशा में आगे बढ़ने के लिए बदतर नहीं करता है , इसलिए कोई गायब होने वाली समस्या (उस तरफ) नहीं है। यह विषमता इसे कुछ अलग कहने का औचित्य साबित करने के लिए पर्याप्त हो सकती है, लेकिन विचार काफी समान हैं।


2
वर्थ जोड़ना: लुप्त हो रही समस्या एक नेटवर्क की गहराई पर प्रगतिशील परिवर्तन के बारे में है, और सीधे न्यूरॉन ट्रांसफर फ़ंक्शन के गुणों के बारे में नहीं है।
नील स्लेटर

1

लुप्त होने का अर्थ है कि यह 0 की ओर जाता है, लेकिन वास्तव में कभी नहीं होगा। 0 के ग्रेडिएंट होने से बहुत आसान गणना होती है, 0 के करीब ग्रेडिएंट होने का मतलब है कि बदलाव हैं, बस बहुत छोटे लोग हैं जिनका मतलब है धीमी गति से सीखने और संख्यात्मक मुद्दे। इस तरह की अनुकूलन समस्याओं में गणना करने के लिए 1 और 0 सबसे आसान संख्या में से दो हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.