ReLU न्यूरॉन्स शून्य उत्पादन करते हैं और सभी नकारात्मक इनपुट के लिए शून्य व्युत्पन्न होते हैं। इसलिए, यदि आपके नेटवर्क में वेट हमेशा एक ReLU न्यूरॉन में नकारात्मक इनपुट की ओर जाता है, तो न्यूरॉन प्रभावी रूप से नेटवर्क के प्रशिक्षण में योगदान नहीं दे रहा है। गणितीय रूप से, उस न्यूरॉन से आने वाले भार अपडेट में ढाल का योगदान हमेशा शून्य होता है (कुछ विवरणों के लिए गणितीय परिशिष्ट देखें)।
एल ( डब्ल्यू)एलएलडब्ल्यूएल
सामान्य तौर पर, क्या होता है यह इस बात पर निर्भर करता है कि नेटवर्क के माध्यम से जानकारी कैसे बहती है। आप अंदाजा लगा सकते हैं कि जैसे-जैसे प्रशिक्षण आगे बढ़ता है, वैसे-वैसे न्यूरॉन्स पैदा होते हैं, चारों ओर बहाव हो सकता है और उनमें से कुछ के माध्यम से सभी डेटा प्रवाह को मारना वजन के लिए संभव बनाता है। (कभी-कभी, वे नेटवर्क में पहले वजन के अपडेट के कारण इन प्रतिकूल कॉन्फ़िगरेशन को छोड़ सकते हैं, हालांकि!)। मैंने वजन घटाने के बारे में एक ब्लॉग पोस्ट में इस विचार का पता लगाया - जो इस समस्या में भी योगदान दे सकता है - और डेटा प्रवाह के संबंध में। मुझे लगता है कि यहाँ मेरी बात को उस लेख के एक कथानक से दर्शाया जा सकता है:
प्लॉट 5 परत मल्टी-लेयर परसेप्ट्रोन में सक्रियण को प्रदर्शित करता है, जिसमें अलग-अलग प्रारंभिक प्रारंभिक रणनीतियों के साथ नेटवर्क के माध्यम से एक के बाद एक ReLU सक्रियण होता है। आप देख सकते हैं कि वजन विन्यास के आधार पर, आपके नेटवर्क के आउटपुट को चोक किया जा सकता है।
गणितीय परिशिष्ट
एलएक्स( i )जेजेमैंच( s ) = अधिकतम ( 0 , s )रों( i )जे( i + 1 )मैं( i + 1 )
∂एल∂w( i )जे के= ∂एल∂एक्स( i + 1 )क∂एक्स( i + 1 )क∂w( i )जे के।
w( i )जे के
∂एक्स( i + 1 )क∂w( i )जे के= ∂च( s)( i )जे)∂रों( i )जे∂रों( i )जे∂w( i )जे के= च'( s)( i )जे)एक्स( i )जे।
इससे आप देख सकते हैं कि यदि आउटपुट हमेशा नकारात्मक होते हैं, तो न्यूरॉन में अग्रणी भार अपडेट नहीं किया जाता है, और न्यूरॉन सीखने में योगदान नहीं देता है।