एक backpropagation तंत्रिका नेटवर्क में एक nonlinear सक्रियण फ़ंक्शन का उपयोग क्यों किया जाना चाहिए?


139

मैं तंत्रिका नेटवर्क पर कुछ चीजें पढ़ रहा हूं और मैं एकल परत तंत्रिका नेटवर्क के सामान्य सिद्धांत को समझता हूं। मैं एडिशनल लेयर्स की जरूरत को समझता हूं, लेकिन नॉनलाइनियर एक्टिविटी फंक्शन्स क्यों इस्तेमाल किए जाते हैं?

यह सवाल इस एक के बाद है: बैकप्रॉपैजेशन में सक्रियण फ़ंक्शन का व्युत्पन्न क्या है?


जवाबों:


167

सक्रियण फ़ंक्शन का उद्देश्य नेटवर्क में गैर-रैखिकता का परिचय देना है

बदले में, यह आपको एक प्रतिक्रिया चर (उर्फ लक्ष्य चर, वर्ग लेबल, या स्कोर) मॉडल करने की अनुमति देता है जो गैर-रैखिक रूप से अपने व्याख्यात्मक चर के साथ बदलता रहता है

गैर-रेखीय का अर्थ है कि आउटपुट को इनपुट के रैखिक संयोजन से पुन: उत्पन्न नहीं किया जा सकता है (जो आउटपुट के समान नहीं है जो एक सीधी रेखा तक फैलता है - इसके लिए शब्द समाप्‍त है )।

इसके बारे में सोचने का एक और तरीका: नेटवर्क में एक गैर-रेखीय सक्रियण फ़ंक्शन के बिना , एक एनएन, चाहे कितनी भी परतें हों, वह एकल-लेयर परसेप्ट्रान की तरह ही व्यवहार करेगा, क्योंकि इन परतों को समेटना आपको सिर्फ एक और रैखिक फ़ंक्शन देगा। (ऊपर परिभाषा देखें)।

>>> in_vec = NP.random.rand(10)
>>> in_vec
  array([ 0.94,  0.61,  0.65,  0.  ,  0.77,  0.99,  0.35,  0.81,  0.46,  0.59])

>>> # common activation function, hyperbolic tangent
>>> out_vec = NP.tanh(in_vec)
>>> out_vec
 array([ 0.74,  0.54,  0.57,  0.  ,  0.65,  0.76,  0.34,  0.67,  0.43,  0.53])

बैकप्रॉप ( हाइपरबोलिक स्पर्शरेखा ) में प्रयुक्त एक सामान्य सक्रियण क्रिया का मूल्यांकन -2 से 2 तक होता है:

यहां छवि विवरण दर्ज करें


15
हम रैखिकता को खत्म क्यों करना चाहेंगे?
कोरज़ा

17
यदि हम जिस मॉडल को मॉडल करना चाहते हैं, वह गैर-रेखीय है तो हमें अपने मॉडल में इसका हिसाब रखना होगा।
डौग

38
एक वाक्य जवाब: << कोई फर्क नहीं पड़ता कि कितने परतों बस एक ही perceptron की तरह व्यवहार करते हैं (क्योंकि रैखिक कार्यों को एक साथ जोड़ केवल आपके रैखिक कार्य दे) >>। । अच्छा!
स्वायत्त

12
यह थोड़ा भ्रामक है - जैसा कि एसकी ने उल्लेख किया है, सुधारा हुआ रैखिक सक्रियण कार्य अत्यंत सफल हैं, और यदि हमारा लक्ष्य केवल मॉडल / अनुमानित कार्यों के लिए है, तो सभी चरणों में गैर-रैखिकता को समाप्त करना आवश्यक रूप से सही उत्तर नहीं है। पर्याप्त रैखिक टुकड़ों के साथ, आप किसी भी गैर-रेखीय फ़ंक्शन को सटीकता के उच्च स्तर तक लगभग अनुमानित कर सकते हैं। : मैं इस कारण है कि इकाइयों रैखिक सुधारा का एक अच्छा विवरण पाया काम stats.stackexchange.com/questions/141960/...
टेगन

11
@tegan रेक्टिफाइड लीनियर एक्टिवेशन फंक्शन नॉन-लीनियर हैं। मुझे यकीन नहीं है कि आपकी टिप्पणी का उत्तर के साथ क्या करना है।
एंडोलिथ

49

एक रैखिक सक्रियण फ़ंक्शन का उपयोग किया जा सकता है, हालांकि बहुत सीमित अवसरों पर। वास्तव में सक्रियण कार्यों को समझने के लिए बेहतर है कि साधारण से कम-वर्ग या केवल रेखीय प्रतिगमन पर ध्यान दिया जाए। एक रेखीय प्रतिगमन का उद्देश्य इष्टतम भार प्राप्त करना है, जिसके परिणामस्वरूप व्याख्यात्मक और लक्ष्य चर के बीच न्यूनतम ऊर्ध्वाधर प्रभाव होता है, जब इनपुट के साथ संयुक्त होता है। संक्षेप में, यदि अपेक्षित आउटपुट रेखीय प्रतिगमन को दर्शाता है जैसा कि नीचे दिखाया गया है तो रैखिक सक्रियण कार्यों का उपयोग किया जा सकता है: (शीर्ष चित्रा)। लेकिन जैसा कि रेखीय फ़ंक्शन के नीचे दूसरे आंकड़े में वांछित परिणाम नहीं होगा: (मध्य आकृति)। हालांकि, एक गैर-रेखीय फ़ंक्शन जैसा कि नीचे दिखाया गया है, वांछित परिणाम देगा:

यहां छवि विवरण दर्ज करें

सक्रियण कार्य रैखिक नहीं हो सकते हैं क्योंकि एक रेखीय सक्रियण फ़ंक्शन वाले तंत्रिका नेटवर्क केवल एक परत गहरे प्रभावी होते हैं, भले ही उनकी वास्तुकला कितनी जटिल हो। नेटवर्क पर इनपुट आमतौर पर रैखिक परिवर्तन (इनपुट * वजन) है, लेकिन वास्तविक दुनिया और समस्याएं गैर-रैखिक हैं। इनकमिंग डेटा को नॉनलाइनर बनाने के लिए हम नॉनलाइनर मैपिंग का इस्तेमाल करते हैं जिसे एक्टिवेशन फंक्शन कहते हैं। एक सक्रियण फ़ंक्शन एक निर्णय लेने वाला फ़ंक्शन है जो एक विशेष तंत्रिका विशेषता की उपस्थिति निर्धारित करता है। यह 0 और 1 के बीच मैप किया जाता है, जहां शून्य का मतलब है सुविधा का अभाव, जबकि एक का अर्थ है इसकी उपस्थिति। दुर्भाग्य से, वज़न में होने वाले छोटे बदलावों को सक्रियण मूल्यों में परिलक्षित नहीं किया जा सकता है क्योंकि यह केवल 0 या 1 ले सकता है। इसलिए, इस सीमा के बीच गैर-रेखीय कार्य निरंतर और भिन्न होना चाहिए। तंत्रिका नेटवर्क किसी भी इनपुट को-अनंत से + अनंत तक ले जाने में सक्षम होना चाहिए, लेकिन यह इसे ऐसे आउटपुट में मैप करने में सक्षम होना चाहिए जो {0,1} या {-1,1} के बीच कुछ मामलों में होता है - इस प्रकार - सक्रियण समारोह के लिए की जरूरत है। सक्रियण कार्यों में गैर-रैखिकता की आवश्यकता होती है क्योंकि तंत्रिका नेटवर्क में इसका उद्देश्य वजन और इनपुट के गैर-रेखीय संयोजनों के माध्यम से एक गैर-रैखिक निर्णय सीमा का उत्पादन करना है।


1
+ एक, तो यह माना जा सकता है कि नॉनलाइनियर फ़ंक्शन का उपयोग एक पूर्ण सीमा स्थापित करने के लिए किया जाता है?
SIslam

1
हाँ बिल्कुल। केवल 0 या 1 का उत्पादन करने के लिए यह 0.4 या 0.78 का उत्पादन कर सकता है, जिससे यह सीमा की सीमा पर निरंतर बना रहता है।
चिबोल

3
तंत्रिका नेटवर्क किसी भी इनपुट को इनफिनिटी से + अनंत तक ले जाने में सक्षम होना चाहिए, लेकिन यह इसे एक आउटपुट पर मैप करने में सक्षम होना चाहिए जो {0,1} या {-1,1} के बीच होता है ... यह मुझे याद दिलाता है ReLU सीमा यह है कि इसका उपयोग केवल एक तंत्रिका नेटवर्क मॉडल की छिपी परतों के भीतर किया जाना चाहिए।
बादल चो

21

यदि हम एक तंत्रिका नेटवर्क में केवल रैखिक सक्रियण कार्यों की अनुमति देते हैं, तो आउटपुट केवल इनपुट का एक रैखिक परिवर्तन होगा , जो एक सार्वभौमिक फ़ंक्शन सन्निकटन बनाने के लिए पर्याप्त नहीं है । इस तरह के नेटवर्क को केवल एक मैट्रिक्स गुणन के रूप में दर्शाया जा सकता है, और आप इस तरह के नेटवर्क से बहुत दिलचस्प व्यवहार प्राप्त करने में सक्षम नहीं होंगे।

एक ही बात उस मामले के लिए जाती है जहां सभी न्यूरॉन्स में सक्रियण कार्य होते हैं (यानी फॉर्म पर एक सक्रियण फ़ंक्शन f(x) = a*x + c, जहां aऔर जहां cस्थिरांक हैं, जो रैखिक सक्रियण कार्यों का एक सामान्यीकरण है), जिसके परिणामस्वरूप इनपुट से आउटपुट तक केवल एक चक्करदार परिवर्तन होगा , जो बहुत रोमांचक नहीं है।

एक तंत्रिका नेटवर्क में रैखिक सक्रियण फ़ंक्शन के साथ न्यूरॉन्स शामिल हो सकते हैं, जैसे आउटपुट परत में, लेकिन नेटवर्क के अन्य हिस्सों में गैर-रैखिक सक्रियण फ़ंक्शन के साथ न्यूरॉन्स की कंपनी की आवश्यकता होती है।

नोट: एक दिलचस्प अपवाद डीपमाइंड के सिंथेटिक ग्रेडिएंट हैं , जिसके लिए वे सक्रियण मूल्यों को देखते हुए बैकप्रोपेगेंशन पास में ढाल का अनुमान लगाने के लिए एक छोटे तंत्रिका नेटवर्क का उपयोग करते हैं, और वे पाते हैं कि वे बिना छिपे हुए परतों के साथ तंत्रिका नेटवर्क का उपयोग करके दूर हो सकते हैं केवल रैखिक सक्रियण।


1
उच्च क्रम कार्यों को कई छिपी परतों का उपयोग करके रैखिक सक्रियण कार्यों के साथ लगाया जा सकता है। सार्वभौमिक सन्निकटन प्रमेय केवल एक छिपी हुई परत के साथ MLPs के लिए विशिष्ट है।
Eski

वास्तव में, मेरा मानना ​​है कि आप अपने बयान में एफ़िन सक्रियण क्रियाओं के बारे में सही हैं, जिसके परिणामस्वरूप एफ़िन परिवर्तन होता है, लेकिन यह तथ्य कि बैकप्रोपेगैनेशन (या कोई अन्य साधन) के माध्यम से सीखा जाता है, यह पूरी तरह से बेकार नहीं है जहाँ तक मूल प्रश्न का संबंध है।
eski

4
@eski नहीं, आप केवल रैखिक सक्रियण कार्यों के साथ उच्च आदेश कार्यों को अनुमानित नहीं कर सकते हैं , आप केवल रैखिक (या affine) मॉडल कर सकते हैं, यदि आपके पास प्रत्येक में एक अतिरिक्त निरंतर नोड है लेकिन कार्य और परिवर्तन, चाहे कितनी भी परतें हों। की है।
HelloGoodbye

क्या यह कहना सही है कि सक्रियण फ़ंक्शन का मुख्य उद्देश्य तंत्रिका नेटवर्क को गैर-रैखिक निर्णय सीमा का उत्पादन करने की अनुमति देना है?
stackoverflowuser2010

@ stackoverflowuser2010 इसे देखने का एक तरीका होगा। लेकिन वहाँ एक सक्रियण समारोह की तुलना में अधिक हैं। सक्रियण फ़ंक्शंस के बारे में विकिपीडिया का लेख कई सक्रियण कार्यों को सूचीबद्ध करता है, जिनमें से सभी (लेकिन एक) गैर-रेखीय होते हैं, और उन विभिन्न गुणों की तुलना करते हैं जो एक सक्रियण फ़ंक्शन के पास हो सकते हैं।
हैलोगूडीबाई

9

रैखिक सक्रियण और छिपी हुई परतों की संख्या के साथ एक फीड-फॉरवर्ड न्यूरल नेटवर्क, बिना किसी छिपे हुए परत के साथ एक रैखिक तंत्रिका तंत्रिका नेटवर्क के बराबर है। उदाहरण के लिए दो छिपे हुए परतों और कोई सक्रियण के साथ आंकड़ा में तंत्रिका नेटवर्क पर विचार करने देता है यहां छवि विवरण दर्ज करें

y = h2 * W3 + b3 
  = (h1 * W2 + b2) * W3 + b3
  = h1 * W2 * W3 + b2 * W3 + b3 
  = (x * W1 + b1) * W2 * W3 + b2 * W3 + b3 
  = x * W1 * W2 * W3 + b1 * W2 * W3 + b2 * W3 + b3 
  = x * W' + b'

हम अंतिम चरण कर सकते हैं क्योंकि कई रैखिक परिवर्तन के संयोजन को एक परिवर्तन के साथ बदला जा सकता है और कई पूर्वाग्रह शब्द का संयोजन सिर्फ एक पूर्वाग्रह है। यदि हम कुछ रैखिक सक्रियण जोड़ते हैं तो भी परिणाम समान होता है।

इसलिए हम इस न्यूरल नेट को सिंगल लेयर न्यूरल नेट से बदल सकते हैं n। इसे लेयर्स तक बढ़ाया जा सकता है । यह इंगित करता है कि परतें जोड़ना रेखीय तंत्रिका जाल की सन्निकटन शक्ति को बिल्कुल नहीं बढ़ाता है। हमें गैर-रैखिक कार्यों के लिए गैर-रैखिक सक्रियण कार्यों की आवश्यकता है और अधिकांश वास्तविक दुनिया की समस्याएं अत्यधिक जटिल और गैर-रैखिक हैं। वास्तव में जब सक्रियण फ़ंक्शन गैर-रेखीय होता है, तो पर्याप्त रूप से बड़ी संख्या में छिपी इकाइयों के साथ एक दो-परत तंत्रिका नेटवर्क एक सार्वभौमिक फ़ंक्शन सन्निकट साबित हो सकता है।


5

"वर्तमान पेपर स्टोन-वीयरस्ट्रैस प्रमेय और गैलेंट एंड व्हाइट के कोसाइन स्क्वैशर का उपयोग करता है ताकि यह स्थापित किया जा सके कि मानक मल्टीलेयर फीडफोर्वर्ड नेटवर्क आर्किटेक्चर जो कि ऐब्सट्रैक्ट स्क्वैशिंग फंक्शंस का उपयोग कर रहे हैं, लगभग किसी भी वांछित सटीकता के लिए ब्याज की किसी भी फ़ंक्शन को अनुमानित कर सकते हैं, बशर्ते कई छिपे हुए हों। इकाइयाँ उपलब्ध हैं। " ( हॉर्निक एट अल।, 1989, तंत्रिका नेटवर्क )

एक स्क्वैशिंग फ़ंक्शन एक ग़ैर-सक्रियण फ़ंक्शन के लिए है, जो सिग्मॉइड सक्रियण फ़ंक्शन की तरह [0,1] मैप करता है।


3

ऐसे समय होते हैं जब एक शुद्ध रैखिक नेटवर्क उपयोगी परिणाम दे सकता है। मान लें कि हमारे पास आकृतियों (3,2,3) के साथ तीन परतों का एक नेटवर्क है। मध्य परत को केवल दो आयामों तक सीमित करके, हमें एक परिणाम मिलता है जो मूल तीन आयामी अंतरिक्ष में "सबसे अच्छे फिट का विमान" है।

लेकिन इस फॉर्म के रैखिक परिवर्तनों को खोजने के लिए आसान तरीके हैं, जैसे NMF, PCA आदि। हालांकि, यह एक ऐसा मामला है जहां एक बहु-स्तरित नेटवर्क एकल परत परसेप्ट्रॉन के समान व्यवहार नहीं करता है।


2

गैर-रैखिक सक्रियण कार्यों के पीछे के तर्क को समझने के लिए पहले आपको यह समझना चाहिए कि सक्रियण कार्यों का उपयोग क्यों किया जाता है। सामान्य तौर पर, वास्तविक दुनिया की समस्याओं के लिए गैर-रैखिक समाधान की आवश्यकता होती है जो कि तुच्छ नहीं हैं। इसलिए हमें गैर-रैखिकता उत्पन्न करने के लिए कुछ कार्यों की आवश्यकता है। मूल रूप से एक सक्रियण फ़ंक्शन जो करता है वह इनपुट मानों को वांछित श्रेणी में मैप करते समय इस गैर-रैखिकता को उत्पन्न करने के लिए है।

हालांकि, रैखिक सक्रियण कार्यों का उपयोग बहुत सीमित मामलों में किया जा सकता है, जहां आपको लीनियर रिग्रेशन जैसी छिपी परतों की आवश्यकता नहीं होती है। आमतौर पर, इस तरह की समस्याओं के लिए एक तंत्रिका नेटवर्क उत्पन्न करना व्यर्थ है क्योंकि छिपी हुई परतों की संख्या से स्वतंत्र, यह नेटवर्क इनपुट का एक रैखिक संयोजन उत्पन्न करेगा जो कि केवल एक चरण में किया जा सकता है। दूसरे शब्दों में, यह एक परत की तरह व्यवहार करता है।

सक्रियण कार्यों के लिए कुछ और वांछनीय गुण भी हैं जैसे कि निरंतर भिन्नता । चूंकि हम बैकप्रोपैजेशन का उपयोग कर रहे हैं, इसलिए हम जो भी फ़ंक्शन उत्पन्न करते हैं, वह किसी भी बिंदु पर भिन्न होना चाहिए। मैं आपको दृढ़ता से सलाह देता हूं कि विषय की बेहतर समझ रखने के लिए यहां से सक्रियण कार्यों के लिए विकिपीडिया पृष्ठ की जांच करें ।


2

कई अच्छे उत्तर यहां दिए गए हैं। क्रिस्टोफर एम। बिशप की पुस्तक "पैटर्न रिकॉग्निशन एंड मशीन लर्निंग" को इंगित करना अच्छा होगा। यह कई एमएल संबंधित अवधारणाओं के बारे में गहन जानकारी प्राप्त करने के लिए संदर्भित करने के लिए एक पुस्तक है। पृष्ठ 229 का अंश (खंड 5.1):

यदि किसी नेटवर्क में सभी छिपी इकाइयों के सक्रियण कार्यों को रैखिक माना जाता है, तो ऐसे किसी भी नेटवर्क के लिए हम हमेशा छिपी हुई इकाइयों के बराबर नेटवर्क पा सकते हैं। यह इस तथ्य से अनुसरण करता है कि क्रमिक रैखिक परिवर्तनों की संरचना स्वयं एक रैखिक परिवर्तन है। हालांकि, यदि छिपी हुई इकाइयों की संख्या इनपुट या आउटपुट इकाइयों की संख्या से कम है, तो नेटवर्क द्वारा उत्पन्न किए जाने वाले रूपांतरण इनपुट से आउटपुट के लिए सबसे सामान्य संभव रैखिक परिवर्तन नहीं हो सकते हैं क्योंकि जानकारी को आयामी कमी में खो दिया जाता है छिपी हुई इकाइयाँ। धारा 12.4.2 में, हम दिखाते हैं कि रैखिक इकाइयों के नेटवर्क प्रमुख घटक विश्लेषण को जन्म देते हैं। सामान्य तौर पर, हालांकि, रैखिक इकाइयों के बहुपरत नेटवर्क में बहुत कम रुचि है।


1

जैसा कि मुझे याद है - सिग्मोइड फ़ंक्शन का उपयोग किया जाता है क्योंकि बीपी एल्गोरिथ्म में फिट होने वाले उनके व्युत्पन्न की गणना करना आसान है, कुछ सरल जैसे एफ (एक्स) (1-एफ (एक्स))। मुझे गणित ठीक से याद नहीं है। वास्तव में डेरिवेटिव के साथ किसी भी फ़ंक्शन का उपयोग किया जा सकता है।


7
जैसा कि मुझे याद है कि फ़ंक्शन अभी भी नीरस रूप से बढ़ रहा है। तो, कोई भी फ़ंक्शन नहीं ।
नोवाक

1

कई न्यूरॉन्स के एक स्तरित एनएन का उपयोग रैखिक रूप से अविभाज्य समस्याओं को सीखने के लिए किया जा सकता है। उदाहरण के लिए XOR फ़ंक्शन को दो परतों के साथ चरण सक्रियण फ़ंक्शन के साथ प्राप्त किया जा सकता है।


0

मुझे इसे यथासंभव सरल रूप से समझाने के लिए दें:

तंत्रिका नेटवर्क का उपयोग पैटर्न मान्यता सही में किया जाता है? और पैटर्न ढूंढना एक बहुत ही गैर-रेखीय तकनीक है।

तर्क के लिए मान लीजिए कि हम हर एक न्यूरॉन के लिए एक रैखिक सक्रियण फ़ंक्शन y = wX + b का उपयोग करते हैं और कुछ सेट करते हैं जैसे कि y> 0 -> वर्ग 1 और वर्ग 0।

अब हम वर्ग त्रुटि हानि का उपयोग करके अपने नुकसान की गणना कर सकते हैं और इसे वापस प्रचारित कर सकते हैं ताकि मॉडल अच्छी तरह से सीखे, सही?

गलत।

  • अंतिम छिपी हुई परत के लिए, अद्यतन मूल्य w {l} = w {l} - (अल्फा) * X होगा।

  • दूसरी अंतिम छिपी हुई परत के लिए, अद्यतन मूल्य w {l-1} = w {l-1} - (अल्फा) * w {l} * X होगा।

  • Ith अंतिम छिपी परत के लिए, अद्यतन मूल्य w {i} = w {i} - (अल्फा) * w {l} ... * w {i + 1} * X होगा।

यह हमारे लिए सभी वेट मेट्रिसेस को एक साथ गुणा करने के कारण होता है इसलिए संभावनाएं: ए) डब्ल्यू {i} लुप्त होने के कारण बमुश्किल बदलाव बी) डब्ल्यू {i} नाटकीय रूप से और गलत तरीके से परिवर्तन के कारण ग्रेडिएंट ग्रेडिएंट सी {डब्ल्यू} को अच्छी तरह से बदलता है। हमें एक अच्छा फिट स्कोर देने के लिए पर्याप्त है

यदि C ऐसा होता है, तो इसका मतलब है कि हमारी वर्गीकरण / भविष्यवाणी की समस्या शायद सबसे सरल रेखीय / लॉजिस्टिक रजिस्ट्रार आधारित थी और पहली जगह में कभी भी तंत्रिका नेटवर्क की आवश्यकता नहीं थी!

कोई फर्क नहीं पड़ता कि आपका एनएन कितना मजबूत या अच्छी तरह से हाइपर ट्यून है, यदि आप एक रैखिक सक्रियण फ़ंक्शन का उपयोग करते हैं, तो आप कभी भी गैर-रैखिक आवश्यकता वाले पैटर्न मान्यता समस्याओं से निपटने में सक्षम नहीं होंगे।


-3

यह बिल्कुल आवश्यकता नहीं है। वास्तव में, सुधारा हुआ रैखिक सक्रियण फ़ंक्शन बड़े तंत्रिका नेटवर्क में बहुत उपयोगी है। ग्रेडिएंट की गणना करना बहुत तेज है, और यह 0 पर न्यूनतम बाउंड सेट करके स्पार्सिटी को प्रेरित करता है।

अधिक जानकारी के लिए निम्नलिखित देखें: https://www.academia.edu/7826776/Mathematical_Intuition_for_Performance_of_Rectified_Linear_Unit_in_Deep_Nadural_Networks


संपादित करें:

इस बात पर कुछ चर्चा हुई है कि क्या रेक्टिफाइड लीनियर एक्टिवेशन फंक्शन को लीनियर फंक्शन कहा जा सकता है।

हां, यह तकनीकी रूप से एक नॉनलाइनियर फ़ंक्शन है क्योंकि यह बिंदु x = 0 पर रैखिक नहीं है, हालांकि, यह कहना अभी भी सही है कि यह अन्य सभी बिंदुओं पर रैखिक है, इसलिए मुझे नहीं लगता कि यह यहाँ पर उपयोगी है।

मैं पहचान समारोह को चुन सकता था और यह अभी भी सच होगा, लेकिन मैंने इसकी हालिया लोकप्रियता के कारण एक उदाहरण के रूप में ReLU को चुना।


8
रेक्टिफाइड लीनियर ऐक्टिवेशन फंक्शन भी नॉन-लीनियर (इसके नाम के बावजूद) है। यह सकारात्मक मूल्यों के लिए सिर्फ रेखीय है
प्लैंकॉकल

4
आप तकनीकी रूप से सही हैं, यह पूरे डोमेन में रैखिक नहीं है, विशेष रूप से x = 0 पर (यह x <0 के लिए रैखिक है, क्योंकि f (x) = 0 एक रैखिक कार्य है)। यह अलग-अलग नहीं है, इसलिए ग्रेडिएंट फ़ंक्शन पूरी तरह से कम्प्यूटेशनल नहीं है, लेकिन व्यवहार में इन तकनीकीताओं को दूर करना आसान है।
eski

4
वह न केवल तकनीकी रूप से सही है, वह व्यवहार में भी सही है (या ऐसा कुछ)। यह ReLU की गैर-रैखिकता है जो उन्हें उपयोगी बनाती है। यदि वे रैखिक होते हैं, तो उनके पास प्रपत्र पर एक सक्रियण फ़ंक्शन होता है f(x) = a*x(क्योंकि वहाँ केवल रैखिक सक्रियण फ़ंक्शन का एक प्रकार है), जो कि एक सक्रियण फ़ंक्शन के रूप में बेकार है (जब तक कि आप इसे गैर-रेखीय सक्रियण फ़ंक्शन के साथ संयोजित नहीं करते हैं )।
हैलोगूडीबाई

10
रेक्टीफाइड लीनियर यूनिट (ReLU) रैखिक नहीं है, और यह सिर्फ एक "मामूली विस्तार" नहीं है कि लोग नाइटपैकिंग कर रहे हैं, यह एक महत्वपूर्ण कारण है कि यह क्यों शुरू करना उपयोगी है। पहचान मैट्रिक्स के साथ एक तंत्रिका नेटवर्क या सक्रियण फ़ंक्शन के रूप में उपयोग की जाने वाली एक नियमित रैखिक इकाई गैर रेखीय कार्यों को मॉडल करने में सक्षम नहीं होगी। सिर्फ इसलिए कि यह 0 से ऊपर रैखिक है, इसका मतलब यह नहीं है कि यह व्यावहारिक रूप से एक रैखिक कार्य है। एक लीकी ReLU "रैखिक" 0 से नीचे है, लेकिन यह अभी भी एक रैखिक कार्य नहीं है और निश्चित रूप से केवल पहचान फ़ंक्शन द्वारा प्रतिस्थापित नहीं किया जा सकता है। अहिंसा सबसे निश्चित रूप से एक आवश्यकता है।
एसम अल-मंसूरी

3
यह एक वास्तविक अवधारणा है जिसे एक टुकड़े-टुकड़े रैखिक कार्य कहा जाता है।
eski
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.