पेशेवरों / विपक्षों के साथ तंत्रिका नेटवर्क में सक्रियण कार्यों की व्यापक सूची


94

क्या कोई संदर्भ दस्तावेज हैं जो तंत्रिका नेटवर्क में सक्रियण कार्यों की एक व्यापक सूची उनके पेशेवरों / विपक्षों के साथ देते हैं (और आदर्श रूप से प्रकाशनों के कुछ संकेत जहां वे सफल थे या इतने सफल नहीं थे)?


मुझे ANN के बारे में पर्याप्त जानकारी नहीं है, लेकिन जब तक कि सक्रियण कार्य आकार में पर्याप्त रूप से भिन्न नहीं होते हैं, तब तक उन्हें अलग बताना बहुत मुश्किल होगा। एक अनुरूप स्थिति की चर्चा के लिए, आप यहां मेरा जवाब देख सकते हैं: लॉजिट और प्रोबेट मॉडल के बीच अंतर
गूँग

1
नहीं, इससे बहुत बड़ा फर्क पड़ता है।
वेलियामी

en.wikipedia.org/wiki/Activation_function एक अच्छा संसाधन है; आप कई अन्य का उपयोग कर सकते हैं, जिनमें शामिल हैं sin(x), openreview.net/pdf?id=Sks3zF9eg देखें ।
पिओटर मिग्डल

जवाबों:


143

मैं उन लोगों की सूची यहाँ बनाना शुरू करूँगा, जिन्हें मैंने अब तक सीखा है। जैसा कि @marcodena ने कहा, पेशेवरों और विपक्ष के लिए और अधिक कठिन है क्योंकि यह सिर्फ इन आंकड़ों को आजमाने से सीखा है, लेकिन मैं कम से कम एक सूची है कि वे क्या चोट नहीं कर सकते हैं।

पहले, मैं संकेतन को स्पष्ट रूप से परिभाषित करूँगा ताकि कोई भ्रम न हो:

नोटेशन

यह अंकन नीलसन की पुस्तक का है

एक फीडफॉर्वर्ड न्यूरल नेटवर्क न्यूरॉन्स की कई परतें एक साथ जुड़ी होती हैं। यह एक इनपुट में लेता है, फिर उस इनपुट नेटवर्क के माध्यम से "ट्रिकल" होता है और तंत्रिका नेटवर्क एक आउटपुट वेक्टर देता है।

अधिक औपचारिक रूप से, फोन सक्रियण के (उर्फ उत्पादन) जे टी एच में न्यूरॉन मैं टी एच परत है, जहां एक 1 j है जे टी इनपुट वेक्टर में तत्व।ajijthithaj1jth

फिर हम अगली परत के इनपुट को निम्न संबंध से पिछले कर सकते हैं:

aji=σ(k(wjkiaki1)+bji)

कहाँ पे

  • , सक्रियण समारोह हैσ
  • , k t h न्यूरॉन से आई ( i - 1 ) t h लेयर से i t h लेयरमें j t t h न्यूरॉन है,wjkikth(i1)thjthith
  • , i t h लेयरमें j t h न्यूरॉनका पूर्वाग्रह हैऔरbjमैंjthमैंटी
  • i t h लेयरमें j t h न्यूरॉनके सक्रियण मान को दर्शाता है।ajijtith

कभी कभी हम लिखने प्रतिनिधित्व करने के लिए Σ कश्मीर ( डब्ल्यू मैं j कश्मीरएक मैं - 1 कश्मीर ) + मैं j , दूसरे शब्दों में, सक्रियण समारोह लागू करने से पहले एक न्यूरॉन की सक्रियता मूल्य।zjमैंk(wjkiaki1)+bji

यहाँ छवि विवरण दर्ज करें

अधिक संक्षिप्त संकेतन के लिए हम लिख सकते हैं

ai=σ(wi×ai1+bi)

कुछ इनपुट के लिए एक feedforward नेटवर्क के उत्पादन में गणना करने के लिए इस सूत्र का उपयोग करने के लिए , सेट एक 1 = मैं , तो गणना एक 2 , एक 3 , ... , एक मीटर है, जहां मीटर परतों की संख्या है।IRna1=मैंa2,a3,,amm

सक्रियण कार्य

(निम्नलिखित में, हम पठनीयता के लिए e x के बजाय लिखेंगे )exp(x)ex

पहचान

एक रैखिक सक्रियण फ़ंक्शन के रूप में भी जाना जाता है।

aji=σ(zji)=zji

पहचान

चरण

aji=σ(zji)={0if zji<01if zji>0

चरण

टुकडें के अनुसार रैखिक

कुछ और x अधिकतम चुनें , जो हमारी "रेंज" है। इस श्रेणी की तुलना में कम सब कुछ 0 होगा, और इस सीमा से अधिक सब कुछ होगा। 1. कुछ भी अन्य के बीच रैखिक रूप से प्रक्षेपित होता है। औपचारिक रूप से:xminxmax

aji=σ(zji)={0if zji<xminmzji+bif xminzjixmax1if zji>xmax

कहाँ पे

m=1xmaxxmin

तथा

b=mxmin=1mxmax

टुकडें के अनुसार रैखिक

अवग्रह

aji=σ(zji)=11+exp(zji)

अवग्रह

पूरक लॉग-लॉग

aji=σ(zji)=1exp(exp(zji))

पूरक लॉग-लॉग

द्विध्रुवी

aji=σ(zji)={1if zji<0   1if zji>0

द्विध्रुवी

द्विध्रुवी सिग्मॉइड

aji=σ(zji)=1exp(zji)1+exp(zji)
द्विध्रुवी सिग्मॉइड

tanh

aji=σ(zji)=tanh(zji)

tanh

लेकन के तन

कुशल बैकप्रॉप देखें ।

aji=σ(zji)=1.7159tanh(23zji)

लेकन के तन

स्केल्ड:

लेकुन की तन्ह स्केल्ड

कठिन तन

aji=σ(zji)=max(1,min(1,zji))

कठिन तन

पूर्ण

aji=σ(zji)=∣zji

पूर्ण

सही करनेवाला

रेक्टीफाइड लाइनर यूनिट (ReLU), मैक्स या रैम्प फंक्शन के रूप में भी जाना जाता है ।

aji=σ(zji)=max(0,zji)

सही करनेवाला

ReLU के संशोधन

ये कुछ सक्रियण कार्य हैं जो मैं उस के साथ खेल रहा हूं जो रहस्यमय कारणों से MNIST के लिए बहुत अच्छा प्रदर्शन करता है।

aji=σ(zji)=max(0,zji)+cos(zji)

ReLU cos

स्केल्ड:

ReLU cos स्केल किया गया

aji=σ(zji)=max(0,zji)+sin(zji)

ReLU पाप

स्केल्ड:

ReLU पाप बढ़ गया

चिकना करनेवाला

स्मूथ रेक्टीफाइड लाइनर यूनिट, स्मूथ मैक्स या सॉफ्ट प्लस के रूप में भी जाना जाता है

जेमैं=σ(zजेमैं)=लॉग इन करें(1+exp(zजेमैं))

चिकना करनेवाला

Logit

aji=σ(zji)=log(zji(1zji))

Logit

स्केल्ड:

लॉगड स्केल्ड

PROBIT

aji=σ(zji)=2erf1(2zji1)

erf

वैकल्पिक रूप से, इसे व्यक्त किया जा सकता है

aji=σ(zji)=ϕ(zji)

ϕ

PROBIT

स्केल्ड:

प्रोब स्केल्ड

कोसाइन

रैंडम किचन सिंक देखें ।

aji=σ(zji)=cos(zji)

कोसाइन

Softmax

aji=exp(zji)kexp(zki)

zjiexp(zji)zji0

log(aji)

log(aji)=log(exp(zji)kexp(zki))

log(aji)=zjilog(kexp(zki))

यहां हमें लॉग-सम-एक्सप-चाल का उपयोग करने की आवश्यकता है :

मान लें कि हम गणना कर रहे हैं:

log(e2+e9+e11+e7+e2+e5)

हम पहले सुविधा के लिए परिमाण द्वारा अपने घातांक को क्रमबद्ध करेंगे:

log(e11+e9+e5+e2+e2+e7)

e11e11e11

log(e11e11(e11+e9+e5+e2+e2+e7))

log(1e11(e0+e2+e6+e9+e13+e18))

log(e11(e0+e2+e6+e9+e13+e18))

log(e11)+log(e0+e2+e6+e9+e13+e18)

1 1+लॉग इन करें(0+-2+-6+-9+-13+-18)

लॉग इन करें(1 1)-1 10

=अधिकतम(z1मैं,z2मैं,z3मैं,)

लॉग इन करें(Σexp(zमैं))=+लॉग इन करें(Σexp(zमैं-))

हमारा सॉफ्टमैक्स फंक्शन तब बन जाता है:

जेमैं=exp(लॉग इन करें(जेमैं))=exp(zजेमैं--लॉग इन करें(Σexp(zमैं-)))

एक सिदोते के रूप में, सॉफ्टमैक्स फ़ंक्शन का व्युत्पन्न है:

dσ(zji)dzji=σ(zji)=σ(zji)(1σ(zji))

ज़्यादातर बाहर

zaji

n

aji=maxk[1,n]sjki

कहाँ पे

sjki=ai1wjki+bjki

है डॉट उत्पाद )

WiithWiWjiji1

WiWjijWjkikji1

bibjiji

biibjibjkikjth न्यूरॉन।

wjiजेमैंwजेमैंमैं-1मैं-1जेमैं

रेडियल बेसिस फ़ंक्शन नेटवर्क

रेडियल बेसिस फंक्शन नेटवर्क फीडफॉर्वर्ड न्यूरल नेटवर्क्स का एक संशोधन है, जहां उपयोग करने के बजाय

जेमैं=σ(Σ(wजेमैंमैं-1)+जेमैं)

wजेमैंμजेमैंσजेमैं पिछले परत में प्रत्येक नोड के लिए।

ρσजेमैंजेमैंzजेमैं पिछली परत में प्रत्येक नोड के लिए । एक विकल्प यूक्लिडियन दूरी का उपयोग करना है:

zजेमैं=(मैं-1-μजेमैं=Σ(मैं-1-μजेमैं)2

μजेमैंवेंμजेमैंσजेमैं

zजेमैं=(मैं-1-μजेमैं)टीΣजेमैं(मैं-1-μजेमैं)

Σजेमैं , के रूप में परिभाषित:

Σजेमैं=निदान(σजेमैं)

Σजेमैंσजेमैंमैं-1μजेमैं स्तंभ वैक्टर यहाँ के रूप में क्योंकि उस अंकन है कि सामान्य रूप से प्रयोग किया जाता है।

ये वास्तव में सिर्फ यह कह रहे हैं कि महालनोबिस दूरी को परिभाषित किया गया है

zजेमैं=Σ(मैं-1-μजेमैं)2σजेमैं

σजेमैंवेंσजेमैंσजेमैं

ΣजेमैंΣजेमैं=निदान(σजेमैं)

जेमैं

जेमैं=Σwजेमैंρ(zजेमैं)

इन नेटवर्क में वे कारणों से सक्रियण फ़ंक्शन को लागू करने के बाद वज़न से गुणा करना चुनते हैं।

μजेमैंσजेमैंजेमैं ऊपर । अंत में "संक्षेप" वेक्टर के साथ इसे दो परतों में विभाजित करना मुझे अजीब लगता है, लेकिन यह वही है जो वे करते हैं।

यहां भी देखें

रेडियल बेसिस फ़ंक्शन नेटवर्क सक्रियण कार्य

गाऊसी

ρ(zजेमैं)=exp(-12(zजेमैं)2)

गाऊसी

Multiquadratic

(एक्स,y)(zजेमैं,0) सेवा (एक्स,y):

ρ(zजेमैं)=(zजेमैं-एक्स)2+y2

यह विकिपीडिया का है । यह बाध्य नहीं है, और इसका कोई सकारात्मक मूल्य हो सकता है, हालांकि मैं सोच रहा हूं कि क्या इसे सामान्य करने का कोई तरीका है।

कब y=0, यह पूर्ण (एक क्षैतिज पारी के साथ) के बराबर है एक्स)।

Multiquadratic

उलटा बहुविकल्पी

चतुष्कोणीय के रूप में ही, सिवाय फ़्लिप के:

ρ(zजेमैं)=1(zजेमैं-एक्स)2+y2

उलटा बहुविकल्पी

* एसवीजी का उपयोग करके इंटमैथ के ग्राफ से ग्राफिक्स ।


11
सीवी में आपका स्वागत है। +6 यह फ़ेब्यूली सूचनात्मक है। मुझे उम्मीद है कि हम भविष्य में इसे और अधिक पसंद करेंगे।
गंग

1
प्रपत्र का सुचारू रूप से सुधारा हुआ रैखिक कार्य भी है लॉग इन करें(1+exp(एक्स)), और जांच।
Memming

ठीक है, मुझे लगता है कि मैंने Logit, Probit और Complementary log-log को जोड़ा है, हालाँकि मुझे इन विषयों की गहरी समझ नहीं है, इसलिए हो सकता है कि मैंने उनके लिखित रूप को गलत समझा हो। क्या ये सही है?
Phylliida

3
यह संदर्भों की एक अच्छी सूची वाला एक दिलचस्प पेपर होगा। उदाहरण के लिए arxiv.org/abs/1505.03654 । यदि आप एक कागज लिखने और अन्य संदर्भ चाहते हैं तो मुझसे संपर्क करने में संकोच न करें।
हुनाफू

9
किसी को एलयू, लीक रेलु, पीआरईएलयू और आरआरएलयू के साथ इसे अपडेट करना चाहिए।
विलीमी

24

इस तरह की एक सूची, हालांकि बहुत अधिक नहीं: http://cs231n.github.io/neural-networks-1/

आमतौर पर सक्रियण कार्यों का उपयोग किया जाता है

प्रत्येक सक्रियण फ़ंक्शन (या गैर-रैखिकता ) एक एकल संख्या लेता है और उस पर एक निश्चित निश्चित गणितीय ऑपरेशन करता है। आपके व्यवहार में कई सक्रियण कार्य हो सकते हैं:

यहाँ छवि विवरण दर्ज करेंयहाँ छवि विवरण दर्ज करें

वाम: अवग्रह गैर linearity वास्तविक संख्या squashes के बीच लेकर [0,1] अधिकार: tanh गैर linearity वास्तविक संख्या squashes के बीच लेकर [-1,1]।

अवग्रह। सिग्मॉइड गैर-रैखिकता का गणितीय रूप हैσ(एक्स)=1/(1+-एक्स)और बाईं ओर ऊपर की छवि में दिखाया गया है। जैसा कि पिछले भाग में बताया गया था, यह एक वास्तविक-मूल्यवान संख्या लेता है और "स्क्वैश" में 0 से 1. के बीच होता है। विशेष रूप से, बड़ी नकारात्मक संख्या 0 हो जाती है और बड़ी संख्या में सकारात्मक संख्या बन जाती है। सिग्मॉइड फ़ंक्शन को ऐतिहासिक रूप से लगातार उपयोग करते देखा गया है चूँकि न्यूरॉन की फायरिंग दर के रूप में इसकी अच्छी व्याख्या है: मान लिया गया अधिकतम आवृत्ति (1) पर पूरी तरह से संतृप्त फायरिंग से बिल्कुल नहीं (0)। व्यवहार में, सिग्मॉइड गैर-रैखिकता हाल ही में पक्ष से बाहर हो गई है और इसका उपयोग शायद ही कभी किया जाता है। इसकी दो बड़ी कमियां हैं:

  • सिग्मोइड संतृप्त होते हैं और ग्रैडिएंट्स को मारते हैं । सिग्माइड न्यूरॉन की एक बहुत ही अवांछनीय संपत्ति यह है कि जब न्यूरॉन की सक्रियता 0 या 1 की पूंछ पर बैठती है, तो इन क्षेत्रों में ढाल लगभग शून्य है। याद रखें कि बैकप्रोपेगेशन के दौरान, इस (स्थानीय) ग्रेडिएंट को पूरे उद्देश्य के लिए इस गेट के आउटपुट के ग्रेडिएंट से गुणा किया जाएगा। इसलिए, अगर स्थानीय ढाल बहुत छोटा है, तो यह प्रभावी रूप से ढाल को "मार" देगा और लगभग कोई संकेत न्यूरॉन के माध्यम से इसके वजन और उसके डेटा तक पुनरावृत्ति नहीं करेगा। इसके अतिरिक्त, संतृप्ति को रोकने के लिए सिग्मॉइड न्यूरॉन्स के वजन को कम करते समय किसी को अतिरिक्त सावधानी बरतनी चाहिए। उदाहरण के लिए, यदि प्रारंभिक वजन बहुत बड़ा है, तो अधिकांश न्यूरॉन्स संतृप्त हो जाएंगे और नेटवर्क मुश्किल से सीखेंगे।
  • सिग्मॉइड आउटपुट शून्य केंद्रित नहीं हैं । न्यूरल नेटवर्क में प्रसंस्करण की बाद की परतों में न्यूरॉन्स के बाद से यह अवांछनीय है (जल्द ही इस पर) डेटा प्राप्त होगा जो शून्य-केंद्रित नहीं है। यह धीरे-धीरे वंश के दौरान गतिशीलता पर प्रभाव पड़ता है, क्योंकि यदि न्यूरॉन में आने वाला डेटा हमेशा सकारात्मक होता है (जैसेएक्स>0 में तत्वपूर्ण =wटीएक्स+)), फिर भार पर ढाल w क्या बैकप्रॉपैगैशन के दौरान या तो सभी सकारात्मक हो जाएंगे, या सभी नकारात्मक (पूरी अभिव्यक्ति के ढाल के आधार पर) होंगे )। यह वजन के लिए ढाल अद्यतन में अवांछनीय जिग-जैगिंग गतिकी का परिचय दे सकता है। हालाँकि, ध्यान दें कि एक बार इन ग्रेडिएंट्स को डेटा के एक बैच में जोड़ दिया जाए तो वज़न के लिए अंतिम अपडेट में परिवर्तनशील संकेत हो सकते हैं, जो इस समस्या को कम कर सकता है। इसलिए, यह एक असुविधा है लेकिन ऊपर संतृप्त सक्रियण समस्या की तुलना में इसके कम गंभीर परिणाम हैं।

Tanh। दायीं ओर ऊपर की छवि पर तन गैर-रैखिकता दिखाई गई है। यह सीमा के लिए एक वास्तविक-मूल्यवान संख्या स्क्वैश करता है [-1, 1]। सिग्मॉइड न्यूरॉन की तरह, इसकी सक्रियता संतृप्त होती है, लेकिन सिग्मॉइड न्यूरॉन के विपरीत इसका उत्पादन शून्य-केंद्रित है। इसलिए, व्यावहारिक रूप से तानह गैर-रैखिकता को हमेशा सिग्मोइड नॉनलाइनियरिटी के लिए पसंद किया जाता है। यह भी ध्यान दें कि तनह न्यूरॉन केवल एक छोटा सिग्मॉइड न्यूरॉन है, विशेष रूप से निम्नलिखित में:tanh(एक्स)=2σ(2एक्स)-1

यहाँ छवि विवरण दर्ज करेंयहाँ छवि विवरण दर्ज करें

वाम: रेक्टीफाइड लीनियर यूनिट (ReLU) एक्टिवेशन फंक्शन, जो शून्य है जब x <0 और फिर स्लोप 1 के साथ रैखिक जब x> 0. राइट: Krizhevsky एट अल से एक प्लॉट। (पीडीएफ़) काग़ज़, तनह इकाई की तुलना में ReLU इकाई के साथ अभिसरण में ६x सुधार का संकेत देता है।

Relu। रेक्टीफाइड लीनियर यूनिट पिछले कुछ वर्षों में बहुत लोकप्रिय हो गई है। यह फ़ंक्शन की गणना करता है(एक्स)=अधिकतम(0,एक्स)। दूसरे शब्दों में, सक्रियण केवल शून्य पर सीमाबद्ध है (बाईं ओर ऊपर की छवि देखें)। ReLUs का उपयोग करने के लिए कई पेशेवरों और विपक्ष हैं:

  • (+) यह बहुत तेजी से पाया गया था (उदाहरण के लिए Krizhevsky एट अल में 6 का एक कारक ) सिग्मॉइड / तान कार्यों की तुलना में स्टोकेस्टिक ढाल वंश के अभिसरण। यह तर्क दिया जाता है कि यह अपने रैखिक, गैर-संतृप्त रूप के कारण है।
  • (+) टैन / सिग्मॉइड न्यूरॉन्स की तुलना में जो महंगे ऑपरेशन (एक्सपोनेंशियल इत्यादि) शामिल हैं, ReLU को शून्य पर सक्रियता के मैट्रिक्स को थ्रेसहोल्ड करके लागू किया जा सकता है।
  • (-) दुर्भाग्य से, प्रशिक्षण के दौरान ReLU इकाइयाँ नाजुक हो सकती हैं और "मर" सकती हैं। उदाहरण के लिए, एक ReLU न्यूरॉन के माध्यम से बहने वाली एक बड़ी ढाल इस तरह से अद्यतन करने के लिए भार का कारण बन सकती है कि न्यूरॉन फिर से किसी भी डाटापॉइंट पर सक्रिय नहीं होगा। यदि ऐसा होता है, तो इकाई के माध्यम से बहने वाली ढाल हमेशा उस बिंदु से शून्य होगी। यही है, ReLU इकाइयाँ प्रशिक्षण के दौरान अपरिवर्तनीय रूप से मर सकती हैं क्योंकि वे डेटा को कई गुना बढ़ा सकती हैं। उदाहरण के लिए, आप सीख सकते हैं कि यदि सीखने की दर बहुत अधिक है, तो आपके नेटवर्क का 40% हिस्सा "मृत" (यानी पूरे प्रशिक्षण डाटासेट में कभी सक्रिय नहीं होने वाला) हो सकता है। सीखने की दर की उचित सेटिंग के साथ यह अक्सर कम होता है।

लीक रे एल यू। लीक ReLUs "मरते हुए ReLU" समस्या को ठीक करने का एक प्रयास है। फ़ंक्शन के बजाय शून्य होने पर x <0, एक टपका हुआ ReLU इसके बजाय एक छोटी नकारात्मक ढलान (0.01, या तो) होगा। यही है, फ़ंक्शन गणना करता है(एक्स)=1(एक्स<0)(αएक्स)+1(एक्स> =0)(एक्स) कहाँ पे αएक छोटा स्थिर है। कुछ लोग सक्रियता फ़ंक्शन के इस रूप के साथ सफलता की रिपोर्ट करते हैं, लेकिन परिणाम हमेशा सुसंगत नहीं होते हैं। ऋणात्मक क्षेत्र में ढलान को भी प्रत्येक न्यूरॉन के एक पैरामीटर में बनाया जा सकता है, जैसा कि PRELU न्यूरॉन्स में देखा जाता है, डिलिंग डीप इन रेक्टीफायर्स में पेश किया गया है , कैमिंग हे एट अल।, 2015 तक। हालांकि, कार्यों में लाभ की स्थिरता वर्तमान में है। स्पष्ट नहीं है।

यहाँ छवि विवरण दर्ज करें

मैक्सआउट । अन्य प्रकार की इकाइयाँ प्रस्तावित की गई हैं जिनके पास क्रियात्मक रूप नहीं है(wटीएक्स+)जहां वज़न और डेटा के बीच डॉट उत्पाद पर एक गैर-रैखिकता लागू होती है। एक अपेक्षाकृत लोकप्रिय विकल्प मैक्सआउट न्यूरॉन है (गुडफेलो एट अल द्वारा हाल ही में पेश किया गया है ) जो कि ReLU और इसके लीकेज संस्करण को सामान्य करता है। मैक्सआउट न्यूरॉन फ़ंक्शन की गणना करता हैअधिकतम(w1टीएक्स+1,w2टीएक्स+2)। ध्यान दें कि ReLU और Leaky दोनों ReLU इस फॉर्म का एक विशेष मामला है (उदाहरण के लिए, ReLU हमारे पास है)w1,1=0)। मैक्सआउट न्यूरॉन इसलिए एक ReLU इकाई (ऑपरेशन के रैखिक शासन, कोई संतृप्ति) के सभी लाभों का आनंद लेता है और इसकी कमियां (मरते हुए ReLU) नहीं है। हालांकि, ReLU न्यूरॉन्स के विपरीत यह हर एक न्यूरॉन के लिए मापदंडों की संख्या को दोगुना करता है, जिससे मापदंडों की एक उच्च कुल संख्या होती है।

यह सबसे सामान्य प्रकार के न्यूरॉन्स और उनके सक्रियण कार्यों की हमारी चर्चा को समाप्त करता है। अंतिम टिप्पणी के रूप में, एक ही नेटवर्क में विभिन्न प्रकार के न्यूरॉन्स का मिश्रण और मिलान करना बहुत दुर्लभ है, भले ही ऐसा करने में कोई मौलिक समस्या न हो।

TLDR : " मुझे किस न्यूरॉन प्रकार का उपयोग करना चाहिए? " यदि यह आपको चिंतित करता है, तो लीके रेएलयू या मैक्सआउट को आज़माएं। कभी भी सिग्मॉइड का उपयोग न करें। तन की कोशिश करें, लेकिन यह अपेक्षा करें कि यह ReLU / Maxout से भी बदतर हो।


लाइसेंस:


MIT लाइसेंस (MIT)

कॉपीराइट (c) 2015 कांपी करपाथी

इस सॉफ़्टवेयर और संबंधित दस्तावेज़ फ़ाइलों ("सॉफ़्टवेयर") की प्रतिलिपि प्राप्त करने वाले किसी भी व्यक्ति को बिना किसी प्रतिबंध के सॉफ़्टवेयर का उपयोग करने, प्रतिलिपि बनाने, संशोधित करने, मर्ज करने के अधिकार सहित, अनुमति देने के लिए अनुमति दी गई है , सॉफ्टवेयर की प्रतियों को प्रकाशित, वितरित, उपविषय, और / या बेचने के लिए, और उन व्यक्तियों को अनुमति देने के लिए जिनके लिए सॉफ्टवेयर ऐसा करने के लिए सुसज्जित है, निम्नलिखित शर्तों के अधीन:

उपरोक्त कॉपीराइट नोटिस और यह अनुमति नोटिस सॉफ्टवेयर की सभी प्रतियों या पर्याप्त भागों में शामिल किया जाएगा।

सॉफ़्टवेयर किसी भी प्रकार, किसी भी तरह के वारंटी के बिना "आईएस के रूप में" प्रदान किया जाता है, जो कि मर्चेंटैबिलिटी के वारंटी के लिए सीमित नहीं है, एक पार्टिकुलर पर्पोस और नॉनफिंगरमेंट के लिए उपयुक्त है। किसी भी सूची में दिए गए ऑटो या कॉपीराइटर किसी भी क्लैम, डैमेज या अन्य देयता के लिए उत्तरदायी नहीं होंगे, अनुबंध के एक अधिनियम, टिकट या अन्य छूट, आवर्ती शुल्क, जो कि सॉफ्टवेयर के उपयोग के संबंध में हैं या उपयोग किए जा रहे हैं। सॉफ्टवेयर।*

अन्य लिंक:


10

मुझे नहीं लगता कि पेशेवरों और विपक्षों के साथ एक सूची मौजूद है। सक्रियण कार्यों अत्यधिक आवेदन निर्भर कर रहे हैं, और वे अपने तंत्रिका नेटवर्क की वास्तुकला (पर भी निर्भर करता है यहाँ उदाहरण आप दो softmax कार्यों के आवेदन को देखने के लिए, कि अवग्रह एक के समान हैं)।

आप कार्यों के सामान्य व्यवहार के बारे में कुछ अध्ययन पा सकते हैं, लेकिन मुझे लगता है कि आपके पास कभी भी परिभाषित और निश्चित सूची नहीं होगी (आप जो पूछते हैं ...)।

मैं अभी भी एक छात्र हूं, इसलिए मैं इंगित करता हूं कि मैं अब तक क्या जानता हूं:

  • यहां आपको बैकप्रोपेगेशन के साथ तन और सिग्मोइड के व्यवहार के बारे में कुछ विचार मिलते हैं। तनह अधिक सामान्य हैं, लेकिन सिग्मोइड ... (हमेशा "लेकिन" होगा)
  • में दीप विरल रेक्टिफायर तंत्रिका नेटवर्क Glorot जेवियर एट अल की, वे कहते हैं कि रेक्टिफायर इकाइयों अधिक जैविक रूप से प्रशंसनीय हैं और वे दूसरों की तुलना में बेहतर प्रदर्शन करते हैं (अवग्रह / tanh)

यह सही जवाब है। एक सूची का उत्पादन कर सकते हैं, लेकिन पेशेवरों और विपक्ष पूरी तरह से डेटा पर निर्भर हैं। वास्तव में, सक्रियण कार्य सीखना सिद्धांत में अधिक उचित है। कारण यह है कि इस पर बहुत अधिक ध्यान केंद्रित नहीं है कि सिग्मॉइड "बस काम करता है"। अंत में, आपका एकमात्र लाभ अभिसरण गति है जो अक्सर महत्वहीन होता है
रनड्रोसन

4

डेनिएल के महान जवाब पर पूर्णता के लिए, अन्य प्रतिमान हैं, जहां एक बेतरतीब ढंग से वजन और / या सक्रियता के प्रकार पर पहिया घूमता है: तरल राज्य मशीन , चरम सीखने की मशीन और गूंज नेटवर्क

इन आर्किटेक्चर के बारे में सोचने का एक तरीका: जलाशय एक प्रकार का कर्नेल है जैसा कि SVM में या एक साधारण FFNN में एक बड़ी छिपी हुई परत में होता है, जहां डेटा कुछ हाइपरस्पेस का अनुमान लगाया जाता है। कोई वास्तविक अध्ययन नहीं है, जब तक कोई संतोषजनक समाधान नहीं हो जाता तब तक जलाशय फिर से उत्पन्न होता है।

इसका अच्छा जवाब भी देखें ।


2

हाल के सक्रियण कार्यों की समीक्षा करने वाला एक लेख इसमें पाया जा सकता है

" एक्टिवेशन फ़ंक्शंस: ट्रेंड्स ऑफ़ प्रैक्टिस एंड रिसर्च इन डीप लर्निंग के लिए " चोगोजी एनीना मयंकपा, विनीफ्रेड इज़ोमा, एंथोनी गचागन और स्टीफन मार्शल द्वारा

दीप तंत्रिका नेटवर्क को विभिन्न उभरते हुए डोमेन में वास्तविक विश्व जटिल समस्याओं को हल करने के लिए सफलतापूर्वक उपयोग किया गया है, जो कि अधिक गहन शिक्षण (डीएल) आर्किटेक्चर के साथ विकसित हो सकते हैं, जो आज तक विकसित किए जा रहे हैं। इन अत्याधुनिक प्रदर्शनों को प्राप्त करने के लिए, डीएल आर्किटेक्चर छिपी हुई परतों और किसी भी डीएल आर्किटेक्चर के आउटपुट परतों के बीच विविध गणना करने के लिए सक्रियण कार्यों (एएफ) का उपयोग करते हैं। यह पत्र गहरे शिक्षण अनुप्रयोगों में उपयोग किए गए मौजूदा वायुसेना पर एक सर्वेक्षण प्रस्तुत करता है और गहन शिक्षण अनुप्रयोगों के लिए सक्रियण कार्यों के उपयोग में हाल के रुझानों पर प्रकाश डालता है। इस पत्र की नवीनता यह है कि यह डीएल में इस्तेमाल किए गए अधिकांश AFs को संकलित करता है और इन अनुप्रयोगों के वर्तमान रुझानों और अत्याधुनिक अनुसंधान परिणामों के खिलाफ व्यावहारिक गहन सीखने की तैनाती में इन कार्यों के उपयोग की रूपरेखा तैयार करता है। यह संकलन तैनाती के लिए तैयार किसी भी आवेदन के लिए सबसे उपयुक्त और उपयुक्त सक्रियण समारोह की पसंद में प्रभावी निर्णय लेने में सहायता करेगा। यह पेपर सामयिक है क्योंकि वायुसेना पर अधिकांश शोध पत्र इसी तरह के कामों और परिणामों पर प्रकाश डालते हैं जबकि यह पेपर पहला होगा, जो साहित्य से अनुसंधान परिणामों के खिलाफ अभ्यास में वायुसेना के अनुप्रयोगों के रुझानों को संकलित करने के लिए, आज तक के गहन शोध शोधों में पाया गया है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.