हम तंत्रिका नेटवर्क में ReLU का उपयोग क्यों करते हैं और हम इसका उपयोग कैसे करते हैं?


31

हम तंत्रिका नेटवर्क के साथ सुधारा हुआ रैखिक इकाइयों (ReLU) का उपयोग क्यों करते हैं? यह तंत्रिका नेटवर्क में सुधार कैसे करता है?

हम क्यों कहते हैं कि ReLU एक सक्रियण कार्य है? तंत्रिका नेटवर्क के लिए सॉफ्टमैक्स सक्रियण कार्य नहीं है? मैं अनुमान लगा रहा हूं कि हम इस तरह से, ReLU और सॉफ्टमैक्स दोनों का उपयोग करते हैं:

न्यूरॉन 1 सॉफ्टमैक्स आउटपुट के साथ ----> न्यूरॉन 1 के आउटपुट पर ReLU, जो कि
न्यूरॉन 2 का इनपुट है ---> न्यूरॉन 2 सॉफ्टमैक्स आउटपुट के साथ -> ...

ताकि न्यूरॉन 2 का इनपुट मूल रूप से ReLU (सॉफ्टमैक्स (X1)) हो। क्या ये सही है?

जवाबों:


36

ReLU फ़ंक्शन f(x)=max(0,x).आमतौर पर यह कुछ अन्य फ़ंक्शन के आउटपुट के लिए तत्व-वार लागू होता है, जैसे कि मैट्रिक्स-वेक्टर उत्पाद। MLP usages में, रेक्टिफायर इकाइयां संभवतः रीडआउट लेयर को छोड़कर अन्य सभी सक्रियण कार्यों को प्रतिस्थापित करती हैं। लेकिन मुझे लगता है कि अगर आप चाहें तो आप उन्हें मिक्स-एंड-मैच कर सकते हैं।

एक तरह से ReLUs तंत्रिका नेटवर्क को बेहतर बनाने के लिए प्रशिक्षण में तेजी ला रहा है। ढाल अभिकलन बहुत सरल है (या तो 0 या 1 x के संकेत के आधार पर )। इसके अलावा, एक ReLU का कम्प्यूटेशनल कदम आसान है: कोई भी नकारात्मक तत्व 0.0 पर सेट होता है - कोई घातांक नहीं, कोई गुणन या विभाजन कार्य नहीं।

लॉजिस्टिक और हाइपरबोलिक स्पर्शरेखा नेटवर्कों के मरीज़ आरएलयू के सकारात्मक हिस्से से छोटे होते हैं। इसका मतलब यह है कि प्रशिक्षण की प्रगति के रूप में सकारात्मक भाग अधिक तेजी से अपडेट किया जाता है। हालाँकि, यह एक लागत पर आता है। बाएं हाथ की ओर 0 ग्रेडिएंट की अपनी समस्या है, जिसे "डेड न्यूरॉन्स" कहा जाता है, जिसमें एक ग्रेडिएंट अपडेट आने वाले मानों को एक ReLU में सेट करता है, जैसे कि आउटपुट हमेशा शून्य होता है; संशोधित ReLU इकाइयाँ जैसे कि ELU (या Leaky ReLU, या PReLU, आदि) इसे संशोधित कर सकती हैं।

ddxReLU(x)=1x>0। इसके विपरीत, एक सिग्मॉइड इकाई का ढाल अधिकतम0.25; दूसरी ओर,tanh0.25<d केबाद से 0 के पास एक क्षेत्र में निवेश के लिए बेहतर किराया0.25<ddxtanh(x)1x[1.31,1.31](लगभग)।


@aginensky आप पृष्ठ के शीर्ष पर प्रश्न बटन पर क्लिक करके प्रश्न पूछ सकते हैं।
साइकोरैक्स का कहना है कि मोनिका

मुझे कोई सबूत नहीं दिखता है कि मैं एक सवाल पूछना चाहता था या मैंने इस पृष्ठ में भाग लिया था। सच कहूँ तो मैं हैरान हूँ कि ReLU कितनी अच्छी तरह काम करता है, लेकिन मैंने इस पर सवाल उठाना बंद कर दिया है :)।
Aginensky

@aginensky ऐसा लगता है कि टिप्पणी को अंतरिम में हटा दिया गया था।
साइकोरैक्स का कहना है कि मोनिका

मेरे द्वारा टिप्पणी को हटाया नहीं गया था और न ही मुझे सूचित किया गया था। मैंने सवालों के जवाब देना बंद कर दिया है और मुझे लगता है कि इसका मतलब है कि मैं भी टिप्पणी कर रहा हूं।
एग्नेन्स्की

@aginensky मुझे नहीं पता कि इससे आपको टिप्पणी करने से क्यों रोकना होगा। यदि आपके पास टिप्पणियों और मॉडरेशन के बारे में कोई प्रश्न हैं, तो आप meta.stats.SE में एक प्रश्न पूछ सकते हैं।
साइकोरैक्स का कहना है कि मोनिका

4

ρ(एक्स)=अधिकतम(0,एक्स)ρρρρ=ρ

enter image description here

n


0

ReLU एक अनुमानित छवि से इनपुट x उदा मैट्रिक्स के साथ अधिकतम फ़ंक्शन (x, 0) है। ReLU तब मैट्रिक्स एक्स में सभी नकारात्मक मानों को शून्य पर सेट करता है और अन्य सभी मानों को स्थिर रखा जाता है।

ReLU की गणना दृढ़ संकल्प के बाद की जाती है और इसलिए एक गैर-सक्रियण क्रिया जैसे कि तन या सिग्मॉइड।

सॉफ्टमैक्स तंत्रिका नेटवर्क के अंत में एक क्लासिफायरियर है। 0 और 1. के बीच मानों के लिए आउटपुट को नियमित करने के लिए लॉजिस्टिक रिग्रेशन है (वैकल्पिक यहाँ एक SVM क्लासिफायरियर है)।

CNN फ़ॉरवर्ड पास जैसे: इनपुट-> conv-> ReLU-> पूल-> conv-> ReLU-> पूल-> FC-> सॉफ्टमैक्स


8
Downvoting। यह बहुत बुरा जवाब है! सॉफ्टमैक्स एक क्लासिफायरियर नहीं है! यह एक ऐसा फंक्शन है जो सामान्य तौर पर (0,1) रेंज के लिए पैमानों (पैमानों) को सुनिश्चित करता है और उन्हें 1 तक बढ़ा देता है। लॉजिस्टिक रिग्रेशन कुछ भी "नियमित" नहीं करता है! सजा "ReLU की गणना के बाद गणना की जाती है और इसलिए एक गैर-सक्रियण कार्य जैसे कि तन या सिग्मॉइड।" क्रिया, या भाव का अभाव है।
Jan Kukacka

1
इसका उत्तर उतना बुरा नहीं है। क्रिया के बिना वाक्य होना चाहिए "ReLU गणना के बाद गणना की जाती है और इसलिए इसलिए एक गैर-सक्रियण कार्य है जैसे कि तन या सिग्मॉइड।" एक वर्ग के रूप में सॉफ्टमैक्स के बारे में सोचना भी समझ में आता है। इसे एक संभाव्य वर्गीकरणकर्ता के रूप में देखा जा सकता है जो प्रत्येक वर्ग के लिए एक संभावना प्रदान करता है। यह "0,1] अंतराल के लिए आउटपुट को" नियमित "/" सामान्य करता है।
user118967

0

ReLU एक शाब्दिक स्विच है। इलेक्ट्रिकल स्विच के साथ 1 वोल्ट 1 वोल्ट आउट में, एन वोल्ट में एन वोल्ट से बाहर आने पर देता है। जब आप शून्य पर स्विच करने का निर्णय लेते हैं, तो आप ReLU के समान ग्राफ देते हैं। कई भारित योगों का भारित योग (डॉट उत्पाद) अभी भी एक रैखिक प्रणाली है। किसी विशेष इनपुट के लिए ReLU स्विच व्यक्तिगत रूप से या बंद हैं। इनपुट से आउटपुट तक एक विशेष रैखिक प्रक्षेपण के परिणामस्वरूप, भारित योग के विभिन्न भारित योगों को स्विच द्वारा एक साथ जोड़ा जाता है। एक विशेष इनपुट और एक विशेष आउटपुट न्यूरॉन के लिए भारित रकम की एक यौगिक प्रणाली है जो वास्तव में एक प्रभावी भारित राशि के लिए संक्षेप में प्रस्तुत की जा सकती है। चूंकि ReLU राज्य को शून्य पर स्विच करता है, इसलिए इनपुट में क्रमिक परिवर्तनों के लिए आउटपुट में कोई अचानक असंतोष नहीं होता है।

एफएफटी और वाल्श हैडमर्ड के रूपांतर के आसपास अन्य संख्यात्मक रूप से कुशल भारित राशि (डॉट उत्पाद) एल्गोरिदम हैं। कोई कारण नहीं है कि आप उन लोगों को एक ReLU आधारित तंत्रिका नेटवर्क में शामिल नहीं कर सकते हैं और कम्प्यूटेशनल लाभ से लाभ उठा सकते हैं। (उदा। फिक्स्ड फिल्टर बैंक न्यूरल नेटवर्क।)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.