क्यों ReLU अन्य सक्रियण कार्यों से बेहतर है

यहां जवाब गायब करने और विस्फोट करने वाले ग्रेडिएंट को संदर्भित करता है जो कि इन sigmoid-एक्टिवेशन फ़ंक्शन के समान है लेकिन, मुझे लगता है, Reluइसका नुकसान है और यह इसका अपेक्षित मूल्य है। के उत्पादन के लिए कोई सीमा नहीं है Reluऔर इसलिए इसका अपेक्षित मूल्य शून्य नहीं है। मुझे याद है Reluकि tanhमशीन सीखने के विशेषज्ञों के बजाय सबसे लोकप्रिय होने से पहले का समय था sigmoid। इसका कारण यह था कि अपेक्षित मूल्य tanhशून्य के बराबर था और इससे तंत्रिका परतों में अधिक तेजी से गहरी परतों में सीखने में मदद मिली। Reluयह विशेषता नहीं है, लेकिन अगर हम इसके व्युत्पन्न लाभ को एक तरफ रख दें तो यह कितना अच्छा काम कर रहा है। इसके अलावा, मुझे लगता है कि व्युत्पन्न भी प्रभावित हो सकता है। क्योंकि सक्रियण (का उत्पादन)Relu) अद्यतन नियमों की गणना के लिए शामिल हैं।

— मीडिया
स्रोत

ReLU के साथ कुछ प्रकार के सामान्यीकरण (जैसे बैच सामान्यीकरण, परत सामान्यीकरण) होना आम बात है। यह आउटपुट रेंज को समायोजित करता है।

— नकास

@nasasas लेकिन सामान्य रूप से CNNसामान्य का उत्पादन reluसामान्य नहीं है? कम से कम मैंने ऐसा कभी नहीं देखा।

— मीडिया

आप सही हैं, बहुत गहरे CNNs में सामान्य नहीं है कि बैच का सामान्यीकरण न हो। क्या आपने वजन प्रारंभिक मूल्यों की भूमिका पर विचार किया है? (जैसे वह आरंभीकरण)

— nasasas

हां, वास्तव में वे किसी भी तरह से लुप्त होने / विस्फोट को रोकने के लिए हैं, कुछ पुनरावृत्तियों के बाद आउटपुट बड़ा हो जाता है मुझे लगता है।

— मीडिया

ReLu का सबसे बड़ा लाभ वास्तव में इसकी ढाल का गैर-संतृप्ति है, जो कि सिग्मॉइड / तन कार्यों ( Krizhevsky एट अल द्वारा कागज ) की तुलना में स्टोकेस्टिक ग्रेडिएंट वंश के अभिसरण को बहुत तेज करता है ।

लेकिन यह एकमात्र फायदा नहीं है। यहाँ ReLu सक्रियण और प्रेरित नियमितीकरण के विरल प्रभाव की चर्चा है। एक और अच्छी संपत्ति यह है कि महंगे ऑपरेशन (एक्सपोनेंशियल इत्यादि) को शामिल करने वाले टैन / सिग्मॉइड न्यूरॉन्स की तुलना में, ReLU को शून्य पर सक्रियता के मैट्रिक्स को थ्रेसहोल्ड करके लागू किया जा सकता है।

लेकिन मुझे विश्वास नहीं है कि आधुनिक तंत्रिका नेटवर्क की महान सफलता अकेले रेलु के कारण है । नई प्रारंभिक तकनीक, जैसे ज़ेवियर इनिशियलाइज़ेशन, ड्रॉपआउट और (बाद में) बैटचनम ने भी बहुत महत्वपूर्ण भूमिका निभाई। उदाहरण के लिए, प्रसिद्ध एलेक्सनेट ने रेलु और ड्रॉपआउट का उपयोग किया ।

तो आपके प्रश्न का उत्तर देने के लिए: ReLu में बहुत अच्छे गुण हैं, हालांकि आदर्श नहीं हैं । लेकिन यह वास्तव में खुद को साबित करता है जब अन्य महान तकनीकों के साथ जोड़ा जाता है, जो कि आपके द्वारा उल्लिखित गैर-शून्य-केंद्र समस्या को हल करता है।

UPD: ReLu आउटपुट वास्तव में शून्य-केंद्रित नहीं है और यह एनएन प्रदर्शन को नुकसान पहुंचाता है। लेकिन इस विशेष मुद्दे को अन्य नियमितीकरण तकनीकों से निपटा जा सकता है, उदाहरण के लिए बैटचनॉर्म, जो सक्रियण से पहले संकेत को सामान्य करता है :

हम सामान्य करके, नॉनलाइनियरिटी से पहले बीएन ट्रांसफॉर्म को जोड़ते हैं । ... इसे सामान्य करने से एक स्थिर वितरण के साथ सक्रियण उत्पन्न होने की संभावना है। $x = Wu+ b$

— कहावत
स्रोत

मुझे इस हिस्से पर जोर देना चाहिए: मैं यह कहने की कोशिश कर रहा था कि अकेले रेलु इस मुद्दे को हल नहीं करता है। आप सही कह रहे हैं कि ReLu आउटपुट शून्य-केंद्रित नहीं है और यह NN प्रदर्शन को नुकसान नहीं पहुंचाता है, जब तक कि वज़न को नियमित नहीं किया जाता है। लेकिन संतृप्त ग्रेडिएंट्स ने एनएन को और भी अधिक चोट पहुंचाई, इसलिए रेलु का बड़े पैमाने पर गोद लेना इसके नुकसान के बावजूद एक कदम आगे था।

— मैक्सिम

क्या आप कृपया कहेंगे कि वजन से आपका क्या मतलब है? जवाब में और वह चीज भी जिस पर आपने जोर दिया है।

— मीडिया

इस विशेष मुद्दे के बारे में कुछ विवरणों के साथ मेरे उत्तर को अपडेट करें

— मैक्सिमम

मुझे जो कुछ गड़बड़ लग रहा है, वह पहचान समारोह का उपयोग क्यों नहीं है? नकारात्मक मूल्यों के लिए 0 का लाभ क्या है?

— एलेक्स

@ एलेक्स आईडी एक गैर-रैखिकता नहीं है। यह NN में केवल रैखिक परतें होने के बराबर है। यह प्रश्न देखें - stackoverflow.com/q/46659525/712995

— Maxim