CV पर एक समान प्रश्न पूछा गया था: पेशेवरों / विपक्षों के साथ तंत्रिका नेटवर्क में सक्रियण कार्यों की व्यापक सूची ।
मैं नीचे दिए गए उत्तरों में से एक को कॉपी करता हूं:
ऐसी एक सूची, हालांकि बहुत अधिक नहीं:
http://cs231n.github.io/neural-networks-1/
सामान्य रूप से उपयोग किए जाने वाले सक्रियण कार्य
प्रत्येक सक्रियण फ़ंक्शन (या गैर-रैखिकता ) एक एकल संख्या लेता है और उस पर एक निश्चित निश्चित गणितीय ऑपरेशन करता है। आपके व्यवहार में कई सक्रियण कार्य हो सकते हैं:
लेफ्ट: सिग्मॉइड नॉन-लीनियरिटी स्क्वैश की वास्तविक संख्या [0,1] के बीच होती है : सही tanh गैर linearity के बीच [-1,1] श्रृंखला के लिए वास्तविक संख्या squashes।
σ( x ) = 1 / ( 1 + ई)- एक्स)और बाईं ओर ऊपर की छवि में दिखाया गया है। जैसा कि पिछले भाग में बताया गया है, यह एक वास्तविक-मूल्यवान संख्या लेता है और "स्क्वैश" में 0 से 1. के बीच होता है। विशेष रूप से, बड़ी नकारात्मक संख्या 0 हो जाती है और बड़ी संख्या में सकारात्मक संख्या बन जाती है। सिग्मॉइड फ़ंक्शन को ऐतिहासिक रूप से लगातार उपयोग करते देखा गया है चूँकि इसकी न्यूरॉन की फायरिंग दर के रूप में अच्छी व्याख्या है: एक अनुमानित अधिकतम आवृत्ति (1) पर पूरी तरह से संतृप्त फायरिंग के लिए (0) बिल्कुल नहीं फायरिंग से। व्यवहार में, सिग्मॉइड गैर-रैखिकता हाल ही में पक्ष से बाहर हो गई है और इसका उपयोग शायद ही कभी किया जाता है। इसकी दो बड़ी कमियां हैं:
- सिग्मोइड संतृप्त होते हैं और अवसादों को मारते हैं । सिग्मॉइड न्यूरॉन की एक बहुत अवांछनीय संपत्ति यह है कि जब न्यूरॉन की सक्रियता 0 या 1 की पूंछ पर बैठती है, तो इन क्षेत्रों में ढाल लगभग शून्य है। याद रखें कि बैकप्रोपेगेशन के दौरान, यह (स्थानीय) ग्रेडिएंट पूरे उद्देश्य के लिए इस गेट के आउटपुट के ग्रेडिएंट से गुणा किया जाएगा। इसलिए, अगर स्थानीय ढाल बहुत छोटा है, तो यह प्रभावी रूप से ढाल को "मार" देगा और लगभग कोई संकेत न्यूरॉन के माध्यम से इसके भार और उसके डेटा तक पुनरावृत्ति नहीं करेगा। इसके अतिरिक्त, संतृप्ति को रोकने के लिए सिग्मॉइड न्यूरॉन्स के वजन को कम करते समय किसी को अतिरिक्त सावधानी बरतनी चाहिए। उदाहरण के लिए, यदि प्रारंभिक वजन बहुत बड़ा है तो अधिकांश न्यूरॉन्स संतृप्त हो जाएंगे और नेटवर्क मुश्किल से सीखेंगे।
- x > ०च= wटीx + बीwच)। यह वजन के लिए ढाल अद्यतन में अवांछनीय जिग-जैगिंग गतिकी का परिचय दे सकता है। हालाँकि, ध्यान दें कि एक बार इन ग्रेडिएंट्स को डेटा के एक बैच में जोड़ दिया जाए तो वज़न के लिए अंतिम अपडेट में परिवर्तनशील संकेत हो सकते हैं, जो इस समस्या को कुछ हद तक कम कर सकता है। इसलिए, यह एक असुविधा है लेकिन ऊपर संतृप्त सक्रियण समस्या की तुलना में इसके कम गंभीर परिणाम हैं।
Tanh। दायीं ओर ऊपर की छवि पर तन गैर-रैखिकता दिखाई गई है। यह सीमा के लिए एक वास्तविक-मूल्यवान संख्या स्क्वैश करता है [-1, 1]। सिग्मॉइड न्यूरॉन की तरह, इसकी सक्रियता संतृप्त होती है, लेकिन सिग्मॉइड न्यूरॉन के विपरीत इसका उत्पादन शून्य-केंद्रित है। इसलिए, व्यवहार में तानह गैर-रैखिकता को हमेशा सिग्मॉइड नॉनलाइनरिटी के लिए पसंद किया जाता है। यह भी ध्यान रखें कि tanh न्यूरॉन बस एक छोटा अवग्रह न्यूरॉन है, विशेष रूप से निम्नलिखित रखती है: ।tanh( x ) = 2 σ( २ x ) - १
वाम: रेक्टीफाइड रैखिक इकाई (ReLU) सक्रियण फ़ंक्शन, जो शून्य है जब x <0 और फिर ढलान 1 के साथ रैखिक जब x> 0. सही: Krizhevsky एट अल से एक भूखंड। (पीडीएफ़) कागज़, तनह इकाई की तुलना में ReLU इकाई के साथ अभिसरण में ६x सुधार का संकेत देता है।
Relu। रेक्टीफाइड लीनियर यूनिट पिछले कुछ वर्षों में बहुत लोकप्रिय हो गई है। यह फ़ंक्शन गणना करता है । दूसरे शब्दों में, सक्रियण केवल शून्य पर सीमाबद्ध है (बाईं ओर ऊपर की छवि देखें)। ReLUs का उपयोग करने के लिए कई पेशेवरों और विपक्ष हैं:च( x ) = अधिकतम ( 0 , x )
- (+) यह बहुत तेजी से पाया गया (उदाहरण के लिए Krizhevsky एट अल में 6 का एक कारक । ) सिग्मॉइड / तन कार्यों की तुलना में स्टोचैस्टिक ढाल वंश के अभिसरण। यह तर्क दिया जाता है कि यह अपने रैखिक, गैर-संतृप्त रूप के कारण है।
- (+) टैन / सिग्मॉइड न्यूरॉन्स की तुलना में जो महंगे ऑपरेशन (एक्सपोनेंशियल आदि) को शामिल करते हैं, ReLU को शून्य पर सक्रियता के मैट्रिक्स को थ्रेसहोल्ड करके लागू किया जा सकता है।
- (-) दुर्भाग्य से, प्रशिक्षण के दौरान ReLU इकाइयाँ नाजुक हो सकती हैं और "मर" सकती हैं। उदाहरण के लिए, एक ReLU न्यूरॉन के माध्यम से बहने वाली एक बड़ी ढाल इस तरह से अद्यतन करने के लिए भार का कारण बन सकती है कि न्यूरॉन फिर से किसी भी डाटापॉइंट पर सक्रिय नहीं होगा। यदि ऐसा होता है, तो यूनिट के माध्यम से बहने वाली ढाल हमेशा उस बिंदु से शून्य होगी। यही है, ReLU इकाइयां प्रशिक्षण के दौरान अपरिवर्तनीय रूप से मर सकती हैं क्योंकि वे डेटा कई गुना खटखटा सकते हैं। उदाहरण के लिए, आप सीख सकते हैं कि यदि सीखने की दर बहुत अधिक है, तो आपके नेटवर्क का 40% हिस्सा "मृत" (यानी पूरे प्रशिक्षण डेटासेट में कभी सक्रिय नहीं होने वाला) हो सकता है। सीखने की दर की एक उचित सेटिंग के साथ यह कम अक्सर एक मुद्दा है।
लीक से हटकर। लीक ReLUs "मरते हुए ReLU" समस्या को ठीक करने का एक प्रयास है। फ़ंक्शन के बजाय शून्य होने पर x <0, एक टपका हुआ ReLU इसके बजाय एक छोटी नकारात्मक ढलान (0.01, या तो) होगा। अर्थात्, फ़ंक्शन गणना करता हैच( x ) = 1 ( x < 0 ) ( α x ) + 1 ( x > = 0 ) ( x )αएक छोटा स्थिर है। कुछ लोग सक्रियता फ़ंक्शन के इस रूप के साथ सफलता की रिपोर्ट करते हैं, लेकिन परिणाम हमेशा सुसंगत नहीं होते हैं। ऋणात्मक क्षेत्र में ढलान को भी प्रत्येक न्यूरॉन के एक पैरामीटर में बनाया जा सकता है, जैसा कि PRELU न्यूरॉन्स में देखा जाता है, डेलिंग डीप इन रेक्टीफायर्स में पेश किया गया है , कैमिंग हे एट अल।, 2015 तक। हालांकि, कार्यों में लाभ की स्थिरता वर्तमान में है। स्पष्ट नहीं है।
च( w)टीx + b )अधिकतम ( w)टी1x + बी1, डब्ल्यूटी2x + बी2)w1, बी1= 0
यह सबसे सामान्य प्रकार के न्यूरॉन्स और उनके सक्रियण कार्यों की हमारी चर्चा को समाप्त करता है। अंतिम टिप्पणी के रूप में, एक ही नेटवर्क में विभिन्न प्रकार के न्यूरॉन्स का मिश्रण और मिलान करना बहुत दुर्लभ है, भले ही ऐसा करने में कोई मौलिक समस्या न हो।
TLDR : " मुझे किस न्यूरॉन प्रकार का उपयोग करना चाहिए? " ReLU गैर-रैखिकता का उपयोग करें, अपनी सीखने की दरों से सावधान रहें और संभवतः एक नेटवर्क में "मृत" इकाइयों के अंश की निगरानी करें। यदि यह आपको चिंतित करता है, तो लीकी रेएलयू या मैक्सआउट को आज़माएं। कभी भी सिग्मॉइड का उपयोग न करें। तन की कोशिश करें, लेकिन यह अपेक्षा करें कि यह ReLU / Maxout से भी बदतर काम करे।
लाइसेंस:
एमआईटी लाइसेंस (एमआईटी)
कॉपीराइट (c) 2015 कांपी करपाथी
इस सॉफ़्टवेयर और संबंधित दस्तावेज़ फ़ाइलों ("सॉफ़्टवेयर") की प्रतिलिपि प्राप्त करने वाले किसी भी व्यक्ति को बिना किसी प्रतिबंध के सॉफ़्टवेयर का उपयोग करने, कॉपी करने, संशोधित करने, मर्ज करने के अधिकार सहित बिना किसी प्रतिबंध के, सॉफ़्टवेयर की अनुमति देने के लिए अनुमति दी गई है , सॉफ्टवेयर की प्रतियों को प्रकाशित, वितरित, उपविषय, और / या बेचने के लिए, और उन व्यक्तियों को अनुमति देने के लिए जिन्हें सॉफ्टवेयर ऐसा करने के लिए सुसज्जित है, निम्न स्थितियों के अधीन:
उपरोक्त कॉपीराइट नोटिस और यह अनुमति नोटिस सॉफ़्टवेयर की सभी प्रतियों या पर्याप्त भागों में शामिल किया जाएगा।
सॉफ़्टवेयर किसी भी प्रकार, किसी भी तरह की वारंटी के बिना "IS" के रूप में प्रदान किया जाता है, जो कि मर्चेंटैबिलिटी के वेरिएंट के लिए सीमित नहीं है, एक आंशिक गरीब और गैर सरकारी संगठन के लिए उपयुक्त है। किसी भी सूची में दिए गए ऑटो या कॉपीराइटर किसी भी क्लैम, डैमेज या अन्य लायबिलिटी के लिए उत्तरदायी नहीं होंगे, जो अनुबंध, टिकट या अन्य वॉइस, किसी भी तरह के एक्शन में हैं, जो सॉफ्टवेयर के उपयोग से संबंधित हैं या उपयोग नहीं कर रहे हैं। सॉफ्टवेयर।*