गणित में एक समारोह रेखीय माना जाता है कि जब भी कोई fucntion अगर हर के लिए एक्स और वाई डोमेन एक निम्नलिखित संपत्ति है: च ( एक्स ) + च ( y ) = च ( एक्स + y ) । परिभाषा के अनुसार ReLU एक x ( 0 , x ) m है । इसलिए, हम से डोमेन विभाजित करता है, तो ( - ∞ , 0 ] या [च: ए → बीएक्सyएच( x ) + च( y) = च( x + y)मी ए एक्स ( 0 , एक्स )( - ∞ , 0 ] तब फंक्शन रैखिक होता है। हालांकि, यह है कि देखना आसान है च ( - 1 ) + च ( 1 ) ≠ च ( 0 ) । इसलिए परिभाषा के अनुसार ReLU रैखिक नहीं है। [ ० , ∞ )च( - 1 ) + एफ( 1 ) ≠ च( 0 )
फिर भी, ReLU रैखिक के इतना करीब है कि यह अक्सर लोगों को भ्रमित करता है और आश्चर्य करता है कि इसे सार्वभौमिक सन्निकट के रूप में कैसे इस्तेमाल किया जा सकता है। मेरे अनुभव में, उनके बारे में सोचने का सबसे अच्छा तरीका रीमैन सैम्स जैसा है। आप बहुत से आयतों के साथ किसी भी निरंतर कार्य को लगभग अनुमानित कर सकते हैं। ReLU सक्रियण बहुत कम आयतों का उत्पादन कर सकते हैं। वास्तव में, व्यवहार में, ReLU जटिल आकार बना सकता है और कई जटिल डोमेन को अनुमानित कर सकता है।
मुझे एक और बात स्पष्ट करने का भी मन कर रहा है। जैसा कि पिछले उत्तर में बताया गया है, न्यूरॉन्स सिग्मॉइड में नहीं मरते हैं, बल्कि गायब हो जाते हैं। इसका कारण यह है क्योंकि सिग्मॉइड फ़ंक्शन का व्युत्पन्न अधिकतम है ।25। इसलिए, कई परतों के बाद आप इन ग्रेडिएंट को गुणा करते हैं और बहुत कम संख्या में 1 से कम संख्या के उत्पाद बहुत जल्दी शून्य हो जाते हैं।
इसलिए यदि आप बहुत सारी परतों के साथ एक गहन शिक्षण नेटवर्क का निर्माण कर रहे हैं, तो आपके सिग्मॉइड कार्य अनिवार्य रूप से जल्दी से रुकेंगे और अधिक या कम बेकार हो जाएंगे।
कुंजी दूर ले जाता है गायब हो गया है ग्रेडिएंट को गुणा करने से आता है न कि ग्रेडिएंट खुद को।