सामान्य रूप से तंत्रिका नेटवर्क में सक्रियण कार्यों का अंतर


15

मैंने तंत्रिका नेटवर्क के लिए सक्रियण फ़ंक्शन प्रकारों का अध्ययन किया है। कार्य स्वयं काफी सरल हैं, लेकिन आवेदन का अंतर पूरी तरह से स्पष्ट नहीं है।

यह उचित है कि एक तार्किक और रैखिक प्रकार के कार्यों के बीच अंतर करता है, जो वांछित बाइनरी / निरंतर आउटपुट पर निर्भर करता है लेकिन सरल रैखिक एक पर सिग्मॉइड फ़ंक्शन का क्या फायदा है?

उदाहरण के लिए, मेरे लिए ReLU को समझना विशेष रूप से मुश्किल है: सकारात्मक आदानों के मामले में एक फ़ंक्शन का उपयोग करने के लिए रैखिक क्या व्यवहार करता है लेकिन नकारात्मक के मामले में "सपाट" है? इसके पीछे क्या अंतर्ज्ञान है? या यह सिर्फ एक साधारण परीक्षण-त्रुटि की बात है, और कुछ नहीं?

जवाबों:


16

CV पर एक समान प्रश्न पूछा गया था: पेशेवरों / विपक्षों के साथ तंत्रिका नेटवर्क में सक्रियण कार्यों की व्यापक सूची

मैं नीचे दिए गए उत्तरों में से एक को कॉपी करता हूं:

ऐसी एक सूची, हालांकि बहुत अधिक नहीं: http://cs231n.github.io/neural-networks-1/

सामान्य रूप से उपयोग किए जाने वाले सक्रियण कार्य

प्रत्येक सक्रियण फ़ंक्शन (या गैर-रैखिकता ) एक एकल संख्या लेता है और उस पर एक निश्चित निश्चित गणितीय ऑपरेशन करता है। आपके व्यवहार में कई सक्रियण कार्य हो सकते हैं:

यहाँ छवि विवरण दर्ज करेंयहाँ छवि विवरण दर्ज करें

लेफ्ट: सिग्मॉइड नॉन-लीनियरिटी स्क्वैश की वास्तविक संख्या [0,1] के बीच होती है : सही tanh गैर linearity के बीच [-1,1] श्रृंखला के लिए वास्तविक संख्या squashes।

σ(एक्स)=1/(1+-एक्स)और बाईं ओर ऊपर की छवि में दिखाया गया है। जैसा कि पिछले भाग में बताया गया है, यह एक वास्तविक-मूल्यवान संख्या लेता है और "स्क्वैश" में 0 से 1. के बीच होता है। विशेष रूप से, बड़ी नकारात्मक संख्या 0 हो जाती है और बड़ी संख्या में सकारात्मक संख्या बन जाती है। सिग्मॉइड फ़ंक्शन को ऐतिहासिक रूप से लगातार उपयोग करते देखा गया है चूँकि इसकी न्यूरॉन की फायरिंग दर के रूप में अच्छी व्याख्या है: एक अनुमानित अधिकतम आवृत्ति (1) पर पूरी तरह से संतृप्त फायरिंग के लिए (0) बिल्कुल नहीं फायरिंग से। व्यवहार में, सिग्मॉइड गैर-रैखिकता हाल ही में पक्ष से बाहर हो गई है और इसका उपयोग शायद ही कभी किया जाता है। इसकी दो बड़ी कमियां हैं:

  • सिग्मोइड संतृप्त होते हैं और अवसादों को मारते हैं । सिग्मॉइड न्यूरॉन की एक बहुत अवांछनीय संपत्ति यह है कि जब न्यूरॉन की सक्रियता 0 या 1 की पूंछ पर बैठती है, तो इन क्षेत्रों में ढाल लगभग शून्य है। याद रखें कि बैकप्रोपेगेशन के दौरान, यह (स्थानीय) ग्रेडिएंट पूरे उद्देश्य के लिए इस गेट के आउटपुट के ग्रेडिएंट से गुणा किया जाएगा। इसलिए, अगर स्थानीय ढाल बहुत छोटा है, तो यह प्रभावी रूप से ढाल को "मार" देगा और लगभग कोई संकेत न्यूरॉन के माध्यम से इसके भार और उसके डेटा तक पुनरावृत्ति नहीं करेगा। इसके अतिरिक्त, संतृप्ति को रोकने के लिए सिग्मॉइड न्यूरॉन्स के वजन को कम करते समय किसी को अतिरिक्त सावधानी बरतनी चाहिए। उदाहरण के लिए, यदि प्रारंभिक वजन बहुत बड़ा है तो अधिकांश न्यूरॉन्स संतृप्त हो जाएंगे और नेटवर्क मुश्किल से सीखेंगे।
  • एक्स>0=wटीएक्स+w)। यह वजन के लिए ढाल अद्यतन में अवांछनीय जिग-जैगिंग गतिकी का परिचय दे सकता है। हालाँकि, ध्यान दें कि एक बार इन ग्रेडिएंट्स को डेटा के एक बैच में जोड़ दिया जाए तो वज़न के लिए अंतिम अपडेट में परिवर्तनशील संकेत हो सकते हैं, जो इस समस्या को कुछ हद तक कम कर सकता है। इसलिए, यह एक असुविधा है लेकिन ऊपर संतृप्त सक्रियण समस्या की तुलना में इसके कम गंभीर परिणाम हैं।

Tanh। दायीं ओर ऊपर की छवि पर तन गैर-रैखिकता दिखाई गई है। यह सीमा के लिए एक वास्तविक-मूल्यवान संख्या स्क्वैश करता है [-1, 1]। सिग्मॉइड न्यूरॉन की तरह, इसकी सक्रियता संतृप्त होती है, लेकिन सिग्मॉइड न्यूरॉन के विपरीत इसका उत्पादन शून्य-केंद्रित है। इसलिए, व्यवहार में तानह गैर-रैखिकता को हमेशा सिग्मॉइड नॉनलाइनरिटी के लिए पसंद किया जाता है। यह भी ध्यान रखें कि tanh न्यूरॉन बस एक छोटा अवग्रह न्यूरॉन है, विशेष रूप से निम्नलिखित रखती है: tanh(एक्स)=2σ(2एक्स)-1

यहाँ छवि विवरण दर्ज करेंयहाँ छवि विवरण दर्ज करें

वाम: रेक्टीफाइड रैखिक इकाई (ReLU) सक्रियण फ़ंक्शन, जो शून्य है जब x <0 और फिर ढलान 1 के साथ रैखिक जब x> 0. सही: Krizhevsky एट अल से एक भूखंड। (पीडीएफ़) कागज़, तनह इकाई की तुलना में ReLU इकाई के साथ अभिसरण में ६x सुधार का संकेत देता है।

Relu। रेक्टीफाइड लीनियर यूनिट पिछले कुछ वर्षों में बहुत लोकप्रिय हो गई है। यह फ़ंक्शन गणना करता है । दूसरे शब्दों में, सक्रियण केवल शून्य पर सीमाबद्ध है (बाईं ओर ऊपर की छवि देखें)। ReLUs का उपयोग करने के लिए कई पेशेवरों और विपक्ष हैं:(एक्स)=अधिकतम(0,एक्स)

  • (+) यह बहुत तेजी से पाया गया (उदाहरण के लिए Krizhevsky एट अल में 6 का एक कारक ) सिग्मॉइड / तन कार्यों की तुलना में स्टोचैस्टिक ढाल वंश के अभिसरण। यह तर्क दिया जाता है कि यह अपने रैखिक, गैर-संतृप्त रूप के कारण है।
  • (+) टैन / सिग्मॉइड न्यूरॉन्स की तुलना में जो महंगे ऑपरेशन (एक्सपोनेंशियल आदि) को शामिल करते हैं, ReLU को शून्य पर सक्रियता के मैट्रिक्स को थ्रेसहोल्ड करके लागू किया जा सकता है।
  • (-) दुर्भाग्य से, प्रशिक्षण के दौरान ReLU इकाइयाँ नाजुक हो सकती हैं और "मर" सकती हैं। उदाहरण के लिए, एक ReLU न्यूरॉन के माध्यम से बहने वाली एक बड़ी ढाल इस तरह से अद्यतन करने के लिए भार का कारण बन सकती है कि न्यूरॉन फिर से किसी भी डाटापॉइंट पर सक्रिय नहीं होगा। यदि ऐसा होता है, तो यूनिट के माध्यम से बहने वाली ढाल हमेशा उस बिंदु से शून्य होगी। यही है, ReLU इकाइयां प्रशिक्षण के दौरान अपरिवर्तनीय रूप से मर सकती हैं क्योंकि वे डेटा कई गुना खटखटा सकते हैं। उदाहरण के लिए, आप सीख सकते हैं कि यदि सीखने की दर बहुत अधिक है, तो आपके नेटवर्क का 40% हिस्सा "मृत" (यानी पूरे प्रशिक्षण डेटासेट में कभी सक्रिय नहीं होने वाला) हो सकता है। सीखने की दर की एक उचित सेटिंग के साथ यह कम अक्सर एक मुद्दा है।

लीक से हटकर। लीक ReLUs "मरते हुए ReLU" समस्या को ठीक करने का एक प्रयास है। फ़ंक्शन के बजाय शून्य होने पर x <0, एक टपका हुआ ReLU इसके बजाय एक छोटी नकारात्मक ढलान (0.01, या तो) होगा। अर्थात्, फ़ंक्शन गणना करता है(एक्स)=1(एक्स<0)(αएक्स)+1(एक्स> =0)(एक्स)αएक छोटा स्थिर है। कुछ लोग सक्रियता फ़ंक्शन के इस रूप के साथ सफलता की रिपोर्ट करते हैं, लेकिन परिणाम हमेशा सुसंगत नहीं होते हैं। ऋणात्मक क्षेत्र में ढलान को भी प्रत्येक न्यूरॉन के एक पैरामीटर में बनाया जा सकता है, जैसा कि PRELU न्यूरॉन्स में देखा जाता है, डेलिंग डीप इन रेक्टीफायर्स में पेश किया गया है , कैमिंग हे एट अल।, 2015 तक। हालांकि, कार्यों में लाभ की स्थिरता वर्तमान में है। स्पष्ट नहीं है।

यहाँ छवि विवरण दर्ज करें

(wटीएक्स+)अधिकतम(w1टीएक्स+1,w2टीएक्स+2)w1,1=0

यह सबसे सामान्य प्रकार के न्यूरॉन्स और उनके सक्रियण कार्यों की हमारी चर्चा को समाप्त करता है। अंतिम टिप्पणी के रूप में, एक ही नेटवर्क में विभिन्न प्रकार के न्यूरॉन्स का मिश्रण और मिलान करना बहुत दुर्लभ है, भले ही ऐसा करने में कोई मौलिक समस्या न हो।

TLDR : " मुझे किस न्यूरॉन प्रकार का उपयोग करना चाहिए? " ReLU गैर-रैखिकता का उपयोग करें, अपनी सीखने की दरों से सावधान रहें और संभवतः एक नेटवर्क में "मृत" इकाइयों के अंश की निगरानी करें। यदि यह आपको चिंतित करता है, तो लीकी रेएलयू या मैक्सआउट को आज़माएं। कभी भी सिग्मॉइड का उपयोग न करें। तन की कोशिश करें, लेकिन यह अपेक्षा करें कि यह ReLU / Maxout से भी बदतर काम करे।


लाइसेंस:


एमआईटी लाइसेंस (एमआईटी)

कॉपीराइट (c) 2015 कांपी करपाथी

इस सॉफ़्टवेयर और संबंधित दस्तावेज़ फ़ाइलों ("सॉफ़्टवेयर") की प्रतिलिपि प्राप्त करने वाले किसी भी व्यक्ति को बिना किसी प्रतिबंध के सॉफ़्टवेयर का उपयोग करने, कॉपी करने, संशोधित करने, मर्ज करने के अधिकार सहित बिना किसी प्रतिबंध के, सॉफ़्टवेयर की अनुमति देने के लिए अनुमति दी गई है , सॉफ्टवेयर की प्रतियों को प्रकाशित, वितरित, उपविषय, और / या बेचने के लिए, और उन व्यक्तियों को अनुमति देने के लिए जिन्हें सॉफ्टवेयर ऐसा करने के लिए सुसज्जित है, निम्न स्थितियों के अधीन:

उपरोक्त कॉपीराइट नोटिस और यह अनुमति नोटिस सॉफ़्टवेयर की सभी प्रतियों या पर्याप्त भागों में शामिल किया जाएगा।

सॉफ़्टवेयर किसी भी प्रकार, किसी भी तरह की वारंटी के बिना "IS" के रूप में प्रदान किया जाता है, जो कि मर्चेंटैबिलिटी के वेरिएंट के लिए सीमित नहीं है, एक आंशिक गरीब और गैर सरकारी संगठन के लिए उपयुक्त है। किसी भी सूची में दिए गए ऑटो या कॉपीराइटर किसी भी क्लैम, डैमेज या अन्य लायबिलिटी के लिए उत्तरदायी नहीं होंगे, जो अनुबंध, टिकट या अन्य वॉइस, किसी भी तरह के एक्शन में हैं, जो सॉफ्टवेयर के उपयोग से संबंधित हैं या उपयोग नहीं कर रहे हैं। सॉफ्टवेयर।*


धन्यवाद, यह सारांश कुछ अंतर्दृष्टि देता है, लेकिन, स्पष्ट रूप से, मैं अभी भी सहज रूप से कुछ विवरणों को थाह नहीं दे सकता हूं (जैसे कि क्यों ReLU "SGD के अभिसरण को बहुत तेज करता है"), और सभी का सबसे: जो एक को चुनना है? निष्कर्ष के आधार पर, मैक्सआउट सबसे अच्छा है और इसका अंत है। लेकिन इस तथ्य के अलावा कि मैक्सआउट सबसे लोकप्रिय पैकेज (उदाहरण के लिए, केरेस) में लागू नहीं किया गया है, यह मुझे उचित लगता है कि कम से कम आखिरी परत में अन्य प्रकारों को रखा जाना चाहिए (उदाहरण के लिए बाइसिकलफिकेशन के लिए सिग्मॉयड)।
हेंड्रिक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.