मैक्स-पूलिंग परतों के माध्यम से बैकप्रॉप?


62

यह एक छोटा सा वैचारिक सवाल है जो मुझे कुछ समय के लिए परेशान कर रहा है: हम तंत्रिका नेटवर्क में अधिकतम-पूलिंग परत के माध्यम से वापस कैसे प्रचार कर सकते हैं?

मशाल 7 एनएन लाइब्रेरी के लिए इस ट्यूटोरियल से गुजरते हुए मैं अधिकतम-पूलिंग परतों में आया । पुस्तकालय एक गहरी नेटवर्क की प्रत्येक परत के लिए ग्रेडिएंट गणना और फॉरवर्ड पास को अमूर्त करता है। मुझे समझ में नहीं आता है कि अधिकतम-पूलिंग परत के लिए ढाल की गणना कैसे की जाती है।

मुझे पता है कि अगर आपके पास एक इनपुट जो कि लेयर न्यूरॉन में जा रहा है , तो ( ) द्वारा दिया गया है: zililδilδil=Ezil

δil=θ(zil)jδjl+1wi,jl,l+1

तो, एक अधिकतम-पूलिंग परत को हमेशा की तरह अगली परत का ' प्राप्त होगा ; लेकिन चूंकि अधिकतम-पूलिंग न्यूरॉन्स के लिए सक्रियण फ़ंक्शन मानों के एक वेक्टर में लेता है (जिस पर यह अधिकतम होता है) इनपुट के रूप में, अब एक भी संख्या नहीं है, लेकिन एक वेक्टर ( को द्वारा प्रतिस्थापित करना होगा । इसके अलावा, , अधिकतम फ़ंक्शन होने के कारण, यह इनपुट के संबंध में भिन्न नहीं है।δjl+1δilθ(zjl)θ({zjl})θ

तो .... इसे कैसे काम करना चाहिए?

जवाबों:


58

गैर-अधिकतम मूल्यों के संबंध में कोई ढाल नहीं है, क्योंकि उन्हें थोड़ा बदलने से आउटपुट प्रभावित नहीं होता है। इसके अलावा अधिकतम ढलान 1 के साथ स्थानीय रूप से रैखिक है, उस इनपुट के संबंध में जो वास्तव में अधिकतम प्राप्त करता है। इस प्रकार, अगली परत से ढाल केवल उस न्यूरॉन को वापस पारित किया जाता है जिसने अधिकतम हासिल किया था। अन्य सभी न्यूरॉन्स को शून्य ढाल मिलता है।

तो आपके उदाहरण में, सभी शून्य का एक वेक्टर होगा, सिवाय इसके कि वें स्थान को एक मान प्राप्त होगा जहांδili{δjl+1}i=argmaxi(zil)


7
ओह ठीक है, गैर-अधिकतम न्यूरॉन्स के माध्यम से कोई बिंदु पीछे-प्रचार नहीं है - यह एक महत्वपूर्ण अंतर्दृष्टि थी। इसलिए अगर मैं अब इसे सही ढंग से समझ रहा हूं, तो अधिकतम-पूलिंग परत के माध्यम से बैक-प्रचार केवल अधिकतम का चयन करता है। पिछली परत से न्यूरॉन (जिस पर अधिकतम-पूलिंग की गई थी) और केवल उसी के माध्यम से बैक-प्रचार जारी है।
शिनवु

लेकिन क्या आपको सक्रियण फ़ंक्शन के व्युत्पन्न के साथ गुणा करने की आवश्यकता नहीं है?
जेसन

1
@ जैसन: अधिकतम मिलने वाले सक्रियण के लिए अधिकतम फ़ंक्शन स्थानीय रूप से रैखिक होता है, इसलिए इसका व्युत्पन्न स्थिर होता है। 1. जिन क्रियाओं के माध्यम से इसे नहीं बनाया गया, यह 0. है। यह वैचारिक रूप से बहुत ही समान है जैसे कि ReLU (x) ) = अधिकतम (0, x) सक्रियण फ़ंक्शन।
चृगी

अधिकतम पूलिंग के लिए स्ट्राइड कर्नेल चौड़ाई से कम क्या है?
वत्सल

1
बहुत बढ़िया जवाब! उस किनारे के मामले के बारे में जहां कई प्रविष्टियों में एक ही अधिकतम मूल्य है (उदाहरण के लिए 2 मानों में एक ReLU से 0 है, और अन्य दो नकारात्मक हैं)?
डंकमास्टरडान

6

मैक्स पूलिंग

तो मान लीजिए आपके पास एक लेयर P है जो एक लेयर PR के ऊपर आता है। फिर आगे का पास कुछ इस तरह होगा:

Pi=f(jWijPRj) ,

जहां परत P के ith न्यूरॉन की सक्रियता है, f सक्रियण कार्य है और W भार हैं। इसलिए, यदि आप इसे प्राप्त करते हैं, तो श्रृंखला नियम से आपको मिलता है कि ग्रेडिएंट निम्नानुसार बहते हैं:Pi

grad(PRj)=igrad(Pi)fWij

लेकिन अब, यदि आपके पास अधिकतम पूलिंग है, तो अधिकतम न्यूरॉन के लिए और अन्य सभी न्यूरॉन्स के लिए, इसलिए पिछली परत में अधिकतम न्यूरॉन के लिए और अन्य सभी के लिए न्यूरॉन्स। इसलिए:f=idf=0f=1f=0

grad(PRmax neuron)=igrad(Pi)Wi max neuron ,

grad(PRothers)=0.


2

@ शिन्वु का जवाब अच्छी तरह से लिखा गया है, मैं एक वीडियो को इंगित करना चाहूंगा जो मैक्स () ऑपरेशन के ग्रेडिएंट को समझाता है और यह एक कम्प्यूटेशनल ग्राफ के भीतर है जो समझ में जल्दी आता है।

अधिकतम ऑपरेशन (एक कम्प्यूटेशनल ग्राफ में एक कम्प्यूटेशनल नोड-आपका एनएन आर्किटेक्चर) को लागू करते समय, हमें एक फ़ंक्शन "मास्क" मैट्रिक्स की आवश्यकता होती है जो ट्रैक करता है कि अधिकतम मैट्रिक्स कहां है। True (1) X में अधिकतम की स्थिति को इंगित करता है, अन्य प्रविष्टियां झूठी (0) हैं। हम अधिकतम की स्थिति का ट्रैक रखते हैं क्योंकि यह इनपुट मूल्य है जो अंततः आउटपुट को प्रभावित करता है, और इसलिए लागत। बैकप्रॉप लागत के संबंध में ग्रेडिएंट की गणना कर रहा है, इसलिए अंतिम लागत को प्रभावित करने वाली किसी भी चीज़ में एक गैर-शून्य ग्रेडिएंट होना चाहिए। इसलिए, बैकप्रॉप इस विशेष इनपुट मूल्य पर ग्रेडिएंट को "प्रचारित" करेगा जिसने लागत को प्रभावित किया था।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.