मैं उन लोगों की सूची यहाँ बनाना शुरू करूँगा, जिन्हें मैंने अब तक सीखा है। जैसा कि @marcodena ने कहा, पेशेवरों और विपक्ष के लिए और अधिक कठिन है क्योंकि यह सिर्फ इन आंकड़ों को आजमाने से सीखा है, लेकिन मैं कम से कम एक सूची है कि वे क्या चोट नहीं कर सकते हैं।
पहले, मैं संकेतन को स्पष्ट रूप से परिभाषित करूँगा ताकि कोई भ्रम न हो:
नोटेशन
यह अंकन नीलसन की पुस्तक का है ।
एक फीडफॉर्वर्ड न्यूरल नेटवर्क न्यूरॉन्स की कई परतें एक साथ जुड़ी होती हैं। यह एक इनपुट में लेता है, फिर उस इनपुट नेटवर्क के माध्यम से "ट्रिकल" होता है और तंत्रिका नेटवर्क एक आउटपुट वेक्टर देता है।
अधिक औपचारिक रूप से, फोन सक्रियण के (उर्फ उत्पादन) जे टी एच में न्यूरॉन मैं टी एच परत है, जहां एक 1 j है जे टी ज इनपुट वेक्टर में तत्व।aijjthitha1jjth
फिर हम अगली परत के इनपुट को निम्न संबंध से पिछले कर सकते हैं:
aij=σ(∑k(wijk⋅ai−1k)+bij)
कहाँ पे
- , सक्रियण समारोह हैσ
- , k t h न्यूरॉन से आई ( i - 1 ) t h लेयर से i t h लेयरमें j t t h न्यूरॉन है,wijkkth(i−1)thjthith
- , i t h लेयरमें j t h न्यूरॉनका पूर्वाग्रह हैऔरbijjthमैंटी एच
- i t h लेयरमें j t h न्यूरॉनके सक्रियण मान को दर्शाता है।aijjthith
कभी कभी हम लिखने प्रतिनिधित्व करने के लिए Σ कश्मीर ( डब्ल्यू मैं j कश्मीर ⋅ एक मैं - 1 कश्मीर ) + ख मैं j , दूसरे शब्दों में, सक्रियण समारोह लागू करने से पहले एक न्यूरॉन की सक्रियता मूल्य।zij∑k(wijk⋅ai−1k)+bij
अधिक संक्षिप्त संकेतन के लिए हम लिख सकते हैं
ai=σ(wi×ai−1+bi)
कुछ इनपुट के लिए एक feedforward नेटवर्क के उत्पादन में गणना करने के लिए इस सूत्र का उपयोग करने के लिए , सेट एक 1 = मैं , तो गणना एक 2 , एक 3 , ... , एक मीटर है, जहां मीटर परतों की संख्या है।I∈Rna1=Ia2,a3,…,amm
सक्रियण कार्य
(निम्नलिखित में, हम पठनीयता के लिए e x के बजाय लिखेंगे )exp(x)ex
पहचान
एक रैखिक सक्रियण फ़ंक्शन के रूप में भी जाना जाता है।
aij=σ(zij)=zij
चरण
aij=σ(zij)={01if zij<0if zij>0
टुकडें के अनुसार रैखिक
कुछ और x अधिकतम चुनें , जो हमारी "रेंज" है। इस श्रेणी की तुलना में कम सब कुछ 0 होगा, और इस सीमा से अधिक सब कुछ होगा। 1. कुछ भी अन्य के बीच रैखिक रूप से प्रक्षेपित होता है। औपचारिक रूप से:xminxmax
aij=σ(zij)=⎧⎩⎨⎪⎪⎪⎪0mzij+b1if zij<xminif xmin≤zij≤xmaxif zij>xmax
कहाँ पे
m=1xmax−xmin
तथा
b=−mxmin=1−mxmax
अवग्रह
aij=σ(zij)=11+exp(−zij)
पूरक लॉग-लॉग
aij=σ(zij)=1−exp(−exp(zij))
द्विध्रुवी
aij=σ(zij)={−1 1if zij<0if zij>0
द्विध्रुवी सिग्मॉइड
aij=σ(zij)=1−exp(−zij)1+exp(−zij)
tanh
aij=σ(zij)=tanh(zij)
लेकन के तन
कुशल बैकप्रॉप देखें ।
aij=σ(zij)=1.7159tanh(23zij)
स्केल्ड:
कठिन तन
aij=σ(zij)=max(−1,min(1,zij))
पूर्ण
aij=σ(zij)=∣zij∣
सही करनेवाला
रेक्टीफाइड लाइनर यूनिट (ReLU), मैक्स या रैम्प फंक्शन के रूप में भी जाना जाता है ।
aij=σ(zij)=max(0,zij)
ReLU के संशोधन
ये कुछ सक्रियण कार्य हैं जो मैं उस के साथ खेल रहा हूं जो रहस्यमय कारणों से MNIST के लिए बहुत अच्छा प्रदर्शन करता है।
aij=σ(zij)=max(0,zij)+cos(zij)
स्केल्ड:
aij=σ(zij)=max(0,zij)+sin(zij)
स्केल्ड:
चिकना करनेवाला
स्मूथ रेक्टीफाइड लाइनर यूनिट, स्मूथ मैक्स या सॉफ्ट प्लस के रूप में भी जाना जाता है
एमैंजे= σ( z)मैंजे) = लॉग( 1+ऍक्स्प( z)मैंजे) )
Logit
एमैंजे= σ( z)मैंजे) = लॉग( z)मैंजे(1−zij))
स्केल्ड:
PROBIT
aij=σ(zij)=2–√erf−1(2zij−1)
erf
वैकल्पिक रूप से, इसे व्यक्त किया जा सकता है
aij=σ(zij)=ϕ(zij)
ϕ
स्केल्ड:
कोसाइन
रैंडम किचन सिंक देखें ।
aij=σ(zij)=cos(zij)
Softmax
aij=exp(zij)∑kexp(zik)
zijexp(zij)zij0
log(aij)
log(aij)=log⎛⎝⎜exp(zij)∑kexp(zik)⎞⎠⎟
log(aij)=zij−log(∑kexp(zik))
यहां हमें लॉग-सम-एक्सप-चाल का उपयोग करने की आवश्यकता है :
मान लें कि हम गणना कर रहे हैं:
log(e2+e9+e11+e−7+e−2+e5)
हम पहले सुविधा के लिए परिमाण द्वारा अपने घातांक को क्रमबद्ध करेंगे:
log(e11+e9+e5+e2+e−2+e−7)
e11e−11e−11
log(e−11e−11(e11+e9+e5+e2+e−2+e−7))
log(1e−11(e0+e−2+e−6+e−9+e−13+e−18))
log(e11(e0+e−2+e−6+e−9+e−13+e−18))
log(e11)+log(e0+e−2+e−6+e−9+e−13+e−18)
11 + लॉग( ई)0+ ई- २+ ई- 6+ ई- ९+ ई- 13+ ई- 18)
लॉग इन करें( ई)1 1)इ- 11≤ 0
m = अधिकतम ( z)मैं1, ज़ेडमैं2, ज़ेडमैं3, । । । )
लॉग इन करें( ∑कexp( z)मैंक) ) = एम + लॉग( ∑कexp( z)मैंक- m ) )
हमारा सॉफ्टमैक्स फंक्शन तब बन जाता है:
एमैंजे= ऍक्स्प( लॉग( a)मैंजे) ) = ऍक्स्प( z)मैंजे- एम - लॉग( ∑कexp( z)मैंक- m ) ) )
एक सिदोते के रूप में, सॉफ्टमैक्स फ़ंक्शन का व्युत्पन्न है:
घσ( z)मैंजे)घzमैंजे=σ′(zij)=σ(zij)(1−σ(zij))
ज़्यादातर बाहर
zaij
n
aij=maxk∈[1,n]sijk
कहाँ पे
sijk=ai−1∙wijk+bijk
∙ है डॉट उत्पाद )
WiithWiWijji−1
WiWijjWijkkji−1
bibijji
biibijbijkkjth न्यूरॉन।
wijखमैंजेwमैंजे केएमैं - १मैं - १खमैंजे के
रेडियल बेसिस फ़ंक्शन नेटवर्क
रेडियल बेसिस फंक्शन नेटवर्क फीडफॉर्वर्ड न्यूरल नेटवर्क्स का एक संशोधन है, जहां उपयोग करने के बजाय
एमैंजे= σ( ∑क( w)मैंजे के⋅ एमैं - १क) + बमैंजे)
wमैंजे केकμमैंजे केσमैंजे के पिछले परत में प्रत्येक नोड के लिए।
ρσमैंजे केएमैंजेzमैंजे के पिछली परत में प्रत्येक नोड के लिए । एक विकल्प यूक्लिडियन दूरी का उपयोग करना है:
zमैंजे के= A ( एमैं - १- μमैंजे के∥-----------√= ∑ℓ( a)मैं - १ℓ- μमैंजे के ℓ)2-------------√
μमैंजे के ℓℓवेंμमैंजे केσमैंजे के
zमैंजे के= ( एमैं - १- μमैंजे के)टीΣमैंजे के( a)मैं - १- μमैंजे के)----------------------√
Σमैंजे के , के रूप में परिभाषित:
Σमैंजे के= डायग ( di)मैंजे के)
Σमैंजे केσमैंजे केएमैं - १μमैंजे के स्तंभ वैक्टर यहाँ के रूप में क्योंकि उस अंकन है कि सामान्य रूप से प्रयोग किया जाता है।
ये वास्तव में सिर्फ यह कह रहे हैं कि महालनोबिस दूरी को परिभाषित किया गया है
zमैंजे के= ∑ℓ( a)मैं - १ℓ- μमैंजे के ℓ)2σमैंजे के ℓ--------------⎷
σमैंजे के ℓℓवेंσमैंजे केσमैंजे के ℓ
Σमैंजे केΣमैंजे के= डायग ( di)मैंजे के)
एमैंजे
एमैंजे= ∑कwमैंजे केρ ( जेड)मैंजे के)
इन नेटवर्क में वे कारणों से सक्रियण फ़ंक्शन को लागू करने के बाद वज़न से गुणा करना चुनते हैं।
μमैंजे केσमैंजे केएमैंजे ऊपर । अंत में "संक्षेप" वेक्टर के साथ इसे दो परतों में विभाजित करना मुझे अजीब लगता है, लेकिन यह वही है जो वे करते हैं।
यहां भी देखें ।
रेडियल बेसिस फ़ंक्शन नेटवर्क सक्रियण कार्य
गाऊसी
ρ ( जेड)मैंजे के) = एक्सप- ( १2( z)मैंजे के)2)
Multiquadratic
( एक्स , वाई)( z)मैंजे, 0 ) सेवा ( एक्स , वाई):
ρ ( जेड)मैंजे के) = ( z )मैंजे के- x )2+ य2------------√
यह विकिपीडिया का है । यह बाध्य नहीं है, और इसका कोई सकारात्मक मूल्य हो सकता है, हालांकि मैं सोच रहा हूं कि क्या इसे सामान्य करने का कोई तरीका है।
कब y= 0, यह पूर्ण (एक क्षैतिज पारी के साथ) के बराबर है एक्स)।
उलटा बहुविकल्पी
चतुष्कोणीय के रूप में ही, सिवाय फ़्लिप के:
ρ ( जेड)मैंजे के) = 1( z)मैंजे के- x )2+ य2------------√
* एसवीजी का उपयोग करके इंटमैथ के ग्राफ से ग्राफिक्स ।