Backpropagation में गैर शून्य केंद्रित सक्रियण कार्य क्यों समस्या है?


26

मैं यहाँ निम्नलिखित पढ़ें :

  • सिग्मॉइड आउटपुट शून्य केंद्रित नहीं हैं । न्यूरल नेटवर्क में प्रसंस्करण की बाद की परतों में न्यूरॉन्स के बाद से यह अवांछनीय है (जल्द ही इस पर) डेटा प्राप्त होगा जो शून्य-केंद्रित नहीं है। धीरे-धीरे वंश के दौरान गतिकी पर इसका प्रभाव पड़ता है, क्योंकि यदि न्यूरॉन में आने वाला डेटा हमेशा धनात्मक होता है (जैसे एलिमेंट इन )), तो वज़न w के दौरान ग्रैडिएंट या तो वाष्पीकरण हो जाएगा सभी सकारात्मक हों, या सभी नकारात्मक हों (संपूर्ण अभिव्यक्ति f के ग्रेडिएंट के आधार पर) x>0f=wTx+bwf)। यह वजन के लिए ढाल अद्यतन में अवांछनीय जिग-जैगिंग गतिकी का परिचय दे सकता है। हालाँकि, ध्यान दें कि एक बार इन ग्रेडिएंट्स को डेटा के एक बैच में जोड़ दिया जाए तो वज़न के लिए अंतिम अपडेट में परिवर्तनशील संकेत हो सकते हैं, जो इस समस्या को कम कर सकता है। इसलिए, यह एक असुविधा है लेकिन ऊपर संतृप्त सक्रियण समस्या की तुलना में इसके कम गंभीर परिणाम हैं।

सभी (एलिमेंट वाइज) होने पर पर सभी पॉजिटिव या ऑल-निगेटिव ग्रेडिएंट क्यों होंगे ?x>0w



2
CS231n वीडियो देखने में भी मेरा वही सवाल था।
सबवेमाच

जवाबों:


28

=Σwमैंएक्समैं+
wमैं=एक्समैं
एलwमैं=एलwमैं=एलएक्समैं

क्योंकि एक्समैं>0 , ग्रेडिएंट एलwमैं हमेशाDLजैसा ही चिन्ह हैएल (सभी सकारात्मक या सभी नकारात्मक)।

अद्यतन
कहो कि दो पैरामीटर w1 और w2 , यदि दो आयामों के ग्रेडिएंट हमेशा एक ही संकेत के होते हैं, तो इसका मतलब है कि हम केवल पैरामीटर अंतरिक्ष में उत्तर-पूर्व या दक्षिण-पश्चिम की दिशा में मोटे तौर पर आगे बढ़ सकते हैं।

यदि हमारा लक्ष्य उत्तर पूर्व में होना है, तो हम केवल वहां पहुंचने के लिए जिग-जैगिंग फैशन में कदम रख सकते हैं, जैसे कि एक संकीर्ण जगह में समानांतर पार्किंग। (मेरी ड्राइंग माफ करें)

यहाँ छवि विवरण दर्ज करें

इसलिए सभी सकारात्मक या सभी-नकारात्मक सक्रियण कार्य (रिले, सिग्मॉइड) धीरे-धीरे आधारित अनुकूलन के लिए कठिन हो सकते हैं। इस समस्या को हल करने के लिए हम पहले से ही बैच / लेयर सामान्यीकरण के रूप में शून्य-केंद्रित होने के लिए पहले से डेटा को सामान्य कर सकते हैं।

इसके अलावा एक अन्य समाधान मैं सोच सकता हूं कि प्रत्येक इनपुट के लिए एक पूर्वाग्रह शब्द जोड़ना है ताकि परत

=Σwमैं(एक्समैं+मैं)
ग्रेडिएंट तब
एलwमैं=एल(एक्समैं-मैं)
साइन केवलएक्समैंपर निर्भर नहीं करेगा।


कृपया मुझे सही करें अगर मैं गलत हूं, लेकिन dL / df का मान नहीं होना चाहिए x यानी xT का परिवर्तन क्योंकि हम यहां जैकोबिन के विचार का उपयोग करेंगे।
चिन्मय

wटीएक्स+एलwएक्स

हां, यह मेरे अंत से बड़ा टाइपो है। मेरा मतलब था df / dw .... लेकिन मुझे लगता है कि यह वेक्टर x पर अधिक निर्भर करता है और अगर यह एक पंक्ति वेक्टर या कॉलम वेक्टर है
चिन्मय

एल/

1
@floyd hi मैंने अभी आपके प्रश्न के लिए कुछ अपडेट्स जोड़े हैं
डब्लूओ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.