ReLU को सक्रियण फ़ंक्शन के रूप में क्यों उपयोग किया जाता है?


21

सक्रियण कार्यों का उपयोग w * x + bतंत्रिका नेटवर्क में प्रकार के रैखिक उत्पादन में गैर-रैखिकता को पेश करने के लिए किया जाता है ।

जिसे मैं सिग्माइड जैसे सक्रियण कार्यों के लिए सहज रूप से समझने में सक्षम हूं।

मैं ReLU के फायदों को समझता हूं, जो बैकप्रोपैजेशन के दौरान मृत न्यूरॉन्स से बच रहा है। हालाँकि, मुझे यह समझ में नहीं आ रहा है कि ReLU का उपयोग सक्रियण फ़ंक्शन के रूप में क्यों किया जाता है यदि इसका आउटपुट रैखिक है?

यदि यह गैर-रैखिकता का परिचय नहीं देगा, तो सक्रियण फ़ंक्शन के पूरे बिंदु को हराया नहीं जाता है?

जवाबों:


21

गणित में एक समारोह रेखीय माना जाता है कि जब भी कोई fucntion अगर हर के लिए एक्स और वाई डोमेन एक निम्नलिखित संपत्ति है: ( एक्स ) + ( y ) = ( एक्स + y ) । परिभाषा के अनुसार ReLU एक x ( 0 , x ) m है । इसलिए, हम से डोमेन विभाजित करता है, तो ( - , 0 ] या [:बीएक्सy(एक्स)+(y)=(एक्स+y)एक्स(0,एक्स)(-,0] तब फंक्शन रैखिक होता है। हालांकि, यह है कि देखना आसान है( - 1 ) + ( 1 ) ( 0 ) । इसलिए परिभाषा के अनुसार ReLU रैखिक नहीं है। [0,)(-1)+(1)(0)

फिर भी, ReLU रैखिक के इतना करीब है कि यह अक्सर लोगों को भ्रमित करता है और आश्चर्य करता है कि इसे सार्वभौमिक सन्निकट के रूप में कैसे इस्तेमाल किया जा सकता है। मेरे अनुभव में, उनके बारे में सोचने का सबसे अच्छा तरीका रीमैन सैम्स जैसा है। आप बहुत से आयतों के साथ किसी भी निरंतर कार्य को लगभग अनुमानित कर सकते हैं। ReLU सक्रियण बहुत कम आयतों का उत्पादन कर सकते हैं। वास्तव में, व्यवहार में, ReLU जटिल आकार बना सकता है और कई जटिल डोमेन को अनुमानित कर सकता है।

मुझे एक और बात स्पष्ट करने का भी मन कर रहा है। जैसा कि पिछले उत्तर में बताया गया है, न्यूरॉन्स सिग्मॉइड में नहीं मरते हैं, बल्कि गायब हो जाते हैं। इसका कारण यह है क्योंकि सिग्मॉइड फ़ंक्शन का व्युत्पन्न अधिकतम है ।25। इसलिए, कई परतों के बाद आप इन ग्रेडिएंट को गुणा करते हैं और बहुत कम संख्या में 1 से कम संख्या के उत्पाद बहुत जल्दी शून्य हो जाते हैं।

इसलिए यदि आप बहुत सारी परतों के साथ एक गहन शिक्षण नेटवर्क का निर्माण कर रहे हैं, तो आपके सिग्मॉइड कार्य अनिवार्य रूप से जल्दी से रुकेंगे और अधिक या कम बेकार हो जाएंगे।

कुंजी दूर ले जाता है गायब हो गया है ग्रेडिएंट को गुणा करने से आता है न कि ग्रेडिएंट खुद को।


7

मैं ReLU के फायदों को समझता हूं, जो बैकप्रोपैजेशन के दौरान मृत न्यूरॉन्स से बच रहा है।

यह पूरी तरह सच नहीं है। न्यूरॉन्स मृत नहीं हैं। यदि आप सिग्मॉइड जैसी सक्रियताओं का उपयोग करते हैं, तो कुछ पुनरावृत्तियों के बाद अधिकांश न्यूरॉन्स के लिए ग्रेडिएंट का मूल्य संतृप्त होता है। ग्रेडिएंट का मूल्य इतना छोटा होगा और सीखने की प्रक्रिया इतनी धीमी गति से होती है। यह गायब हो रहा है और धमाका करने वाले ग्रेडिएंट हैं जो सिग्मॉइड-जैसे ऐक्टिवेशन फंक्शन्स में हुए हैं। इसके विपरीत, मरे हुए न्यूरॉन हो सकते हैं यदि आप ReLUगैर-अलंकरण का उपयोग करते हैं , जिसे मरते हुए ReLU कहा जाता है ।

मैं यह समझने में सक्षम नहीं हूं कि ReLU का उपयोग सक्रियण फ़ंक्शन के रूप में क्यों किया जाता है यदि इसका आउटपुट रैखिक है

निश्चित रूप से यह रैखिक नहीं है। एक साधारण परिभाषा के रूप में, रैखिक कार्य एक फ़ंक्शन है जो अपने डोमेन में इनपुट के लिए एक ही व्युत्पन्न है।

अर्थशास्त्र में रैखिक कार्य लोकप्रिय है। यह आकर्षक है क्योंकि यह गणितीय रूप से संभालना सरल और आसान है। इसके कई महत्वपूर्ण अनुप्रयोग हैं। रेखीय कार्य वे हैं जिनका ग्राफ एक सीधी रेखा है। एक रैखिक फ़ंक्शन का निम्न रूप होता है:

y = f (x) = a + bx

एक रैखिक फ़ंक्शन का एक स्वतंत्र चर और एक आश्रित चर होता है। स्वतंत्र चर x है और आश्रित चर y है।

a निरंतर अवधि या y अवरोधन है। यह x = 0 पर निर्भर चर का मान है।

b स्वतंत्र चर का गुणांक है। यह ढलान के रूप में भी जाना जाता है और आश्रित चर के परिवर्तन की दर देता है।

ReLUरैखिक नहीं हैसरल उत्तर यह है कि ReLUआउटपुट एक सीधी रेखा नहीं है, यह एक्स-अक्ष पर झुकता है। अधिक दिलचस्प बात यह है कि इस गैर-रैखिकता का परिणाम क्या है। सरल शब्दों में, रैखिक फ़ंक्शन आपको एक सीधी रेखा का उपयोग करके फीचर विमान को विच्छेदित करने की अनुमति देते हैं। लेकिन एस के गैर-रैखिकता के साथ ReLU, आप फीचर विमान पर मनमाने आकार के घटता का निर्माण कर सकते हैं।

ReLUएक नुकसान हो सकता है जो इसका अपेक्षित मूल्य है। के उत्पादन के लिए कोई सीमा नहीं है Reluऔर इसका अपेक्षित मूल्य शून्य नहीं है। Tanhसे अधिक लोकप्रिय था sigmoidक्योंकि इसका अपेक्षित मूल्य शून्य के बराबर है और गहरी परतों में सीखना अधिक तेजी से होता है। हालांकि ReLUयह लाभ नहीं है इस समस्या कोbatch normalization हल करती है

अधिक जानकारी के लिए आप यहां और यहां भी संदर्भित कर सकते हैं ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.