ReLU फ़ंक्शन f(x)=max(0,x).आमतौर पर यह कुछ अन्य फ़ंक्शन के आउटपुट के लिए तत्व-वार लागू होता है, जैसे कि मैट्रिक्स-वेक्टर उत्पाद। MLP usages में, रेक्टिफायर इकाइयां संभवतः रीडआउट लेयर को छोड़कर अन्य सभी सक्रियण कार्यों को प्रतिस्थापित करती हैं। लेकिन मुझे लगता है कि अगर आप चाहें तो आप उन्हें मिक्स-एंड-मैच कर सकते हैं।
एक तरह से ReLUs तंत्रिका नेटवर्क को बेहतर बनाने के लिए प्रशिक्षण में तेजी ला रहा है। ढाल अभिकलन बहुत सरल है (या तो 0 या 1 x के संकेत के आधार पर )। इसके अलावा, एक ReLU का कम्प्यूटेशनल कदम आसान है: कोई भी नकारात्मक तत्व 0.0 पर सेट होता है - कोई घातांक नहीं, कोई गुणन या विभाजन कार्य नहीं।
लॉजिस्टिक और हाइपरबोलिक स्पर्शरेखा नेटवर्कों के मरीज़ आरएलयू के सकारात्मक हिस्से से छोटे होते हैं। इसका मतलब यह है कि प्रशिक्षण की प्रगति के रूप में सकारात्मक भाग अधिक तेजी से अपडेट किया जाता है। हालाँकि, यह एक लागत पर आता है। बाएं हाथ की ओर 0 ग्रेडिएंट की अपनी समस्या है, जिसे "डेड न्यूरॉन्स" कहा जाता है, जिसमें एक ग्रेडिएंट अपडेट आने वाले मानों को एक ReLU में सेट करता है, जैसे कि आउटपुट हमेशा शून्य होता है; संशोधित ReLU इकाइयाँ जैसे कि ELU (या Leaky ReLU, या PReLU, आदि) इसे संशोधित कर सकती हैं।
ddxReLU(x)=1∀x>0। इसके विपरीत, एक सिग्मॉइड इकाई का ढाल अधिकतम0.25; दूसरी ओर,tanh0.25<d केबाद से 0 के पास एक क्षेत्र में निवेश के लिए बेहतर किराया0.25<ddxtanh(x)≤1∀x∈[−1.31,1.31](लगभग)।