मैं बैच नॉर्मलाइज़ेशन पेपर [1] पढ़ रहा था और इसमें एक सेक्शन था, जो एक उदाहरण से गुजरता है, यह दिखाने की कोशिश करता है कि क्यों नॉर्मलाइज़ेशन को ध्यान से करना पड़ता है। मैं ईमानदारी से समझ नहीं पा रहा हूं कि उदाहरण कैसे काम करता है और मैं वास्तव में बहुत उत्सुक हूं कि वे जितना समझ सकते हैं उतना कागज। पहले मुझे इसे यहाँ उद्धृत करें:
उदाहरण के लिए, इनपुट के साथ एक परत पर विचार यू सीखा पूर्वाग्रह ख कहते हैं, और सक्रियण प्रशिक्षण डेटा पर गणना की की संकरी को घटा कर परिणाम को सामान्य है जहां एक्स = यू + ख , एक्स = { एक्स १ । । । एन } के मूल्यों का सेट है एक्स प्रशिक्षण सेट से अधिक है, और ई [ एक्स ] = Σ एन मैं = 1 एक्स मैं। एक ढाल वंश कदम की निर्भरता पर ध्यान नहीं देता है, तो पर ख , तो यह अद्यतन करेगा ख ← ख + Δ > ख , जहां Δ ख α - ∂ एल । फिरयू+(ख+Δख)-ई[यू+(ख+Δख)]=यू+ख-ई[यू+ख]। इस प्रकार,सामान्यीकरण मेंबीऔर बाद के बदलावके अपडेट के संयोजनने परत के उत्पादन में कोई बदलाव नहीं किया और न ही, परिणामस्वरूप, नुकसान।
मुझे लगता है कि मैं संदेश को समझता हूं, कि यदि कोई सामान्य रूप से सामान्यीकरण नहीं करता है, तो यह खराब हो सकता है। मैं अभी उदाहरण नहीं देता कि वे इसका उपयोग कैसे कर रहे हैं।
मुझे पता है कि किसी की मदद करना मुश्किल है अगर वे इस बात पर अधिक विशिष्ट नहीं हैं कि उन्हें क्या भ्रमित कर रहा है तो मैं अगले खंड पर प्रदान करूंगा, जो चीजें मुझे उनके स्पष्टीकरण के बारे में भ्रमित कर रही हैं।
मुझे लगता है कि मेरे अधिकांश भ्रम तर्कसंगत हो सकते हैं, इसलिए मैं स्पष्ट करूंगा।
सबसे पहले, मुझे लगता है कि चीजों में से एक है जो मुझे बहुत भ्रमित कर रही है कि लेखकों के लिए नेटवर्क में एक इकाई होने का क्या मतलब है और एक सक्रियण क्या है। आमतौर पर, मैं एक सक्रियण के बारे में सोचता हूं:
जहाँ पहली इनपुट परत से कच्चा फ़ीचर वैक्टर है।
इसके अलावा, मुझे लगता है कि पहली चीज जो मुझे भ्रमित करती है (पिछले कारण के कारण) वह वह परिदृश्य है जो वे वास्तव में समझाने की कोशिश कर रहे हैं। इसे कहते हैं:
सक्रियण प्रशिक्षण डेटा पर गणना की की संकरी को घटा कर परिणाम को सामान्य एक्स = एक्स - ई [ एक्स ] जहां एक्स = यू + ख
मुझे लगता है कि वे जो कहने की कोशिश कर रहे हैं, वह यह है कि सक्रियण के उपयोग के बजाय आगे पास द्वारा गणना की जाती है, कोई माध्य सक्रियण घटाकर किसी प्रकार का "सामान्यीकरण" करता है:
और फिर उसे पीछे-प्रसार एल्गोरिथ्म तक पहुंचाता है। या कम से कम मुझे क्या मतलब होगा।
इस से संबंधित, मुझे लगता है कि वे जिसे कहते हैं वह शायद x ( l ) है ? Thats मैं क्या अनुमान लगाऊंगा क्योंकि वे इसे "इनपुट" कहते हैं और समीकरण x = u + b है (मुझे लगता है कि वे अपने तंत्रिका नेटवर्क के लिए पहचान / रैखिक सक्रियण इकाई का उपयोग कर रहे हैं? शायद)।
आगे भ्रमित मेरे लिए, वे परिभाषित कुछ आंशिक व्युत्पन्न के लिए आनुपातिक रूप में, लेकिन आंशिक व्युत्पन्न के संबंध में गणना की जाती है एक्स , जो मेरे लिए वास्तव में विचित्र लगता है। आमतौर पर, ढाल मूल का उपयोग करते समय आंशिक डेरिवेटिव नेटवर्क के मापदंडों के संबंध में होते हैं। एक ऑफसेट के मामले में, मैंने सोचा होगा:
सामान्यीकृत गतिविधियों के संबंध में व्युत्पन्न लेने के बजाय अधिक समझ में आता है। मुझे यह समझाया गया है कि वे के संबंध में व्युत्पन्न काफ़ी होगा कोशिश कर रहा था एक्स और मुझे लगा कि डेल्टा की चर्चा करते हुए थे जब उनके द्वारा लिखे गए ∂ एल के बाद से आमतौर पर है कि बैक-प्रोप एल्गोरिथ्म पूर्व सक्रियण के बाद से डेल्टा का समीकरण है सम्मान के साथ एक व्युत्पन्न है कि का ही हिस्सा है:
एक और बात जो मुझे भ्रमित करती है:
फिर ।
वे वास्तव में नहीं कहता कि वे क्या उपरोक्त समीकरण में गणना करने के लिए कोशिश कर रहे हैं, लेकिन मैं यह अनुमान लगा है कि वे के बाद (पहली परत? के लिए) अद्यतन सामान्यीकृत सक्रियण गणना करने के लिए कोशिश कर रहे हैं के लिए अद्यतन किया जाता है ख + Δ ख ? यकीन नहीं होता कि मैं उनकी बात खरीदूं क्योंकि मुझे लगता है कि सही समीकरण होना चाहिए था:
रद्द नहीं करता जो पैरामीटर में परिवर्तन ख । हालांकि, मैं वास्तव में नहीं जानता कि वे क्या कर रहे हैं इसलिए मैं सिर्फ अनुमान लगा रहा हूं। वास्तव में वह समीकरण क्या है जो उन्होंने लिखा है?
मुझे यकीन नहीं है कि यह सही समझ है लेकिन मैंने उनके उदाहरण के लिए कुछ सोचा है। ऐसा लगता है कि उनके उदाहरण में कोई गैर-रैखिक सक्रियण इकाई नहीं है (पहचान का उपयोग करता है) और वे केवल पहली इनपुट परत के बारे में बात कर रहे हैं? चूंकि उन्होंने बहुत सारे विवरण छोड़ दिए हैं और यह धारणा बहुत स्पष्ट नहीं है कि मैं बिल्कुल वही नहीं घटा सकता जो वे बात कर रहे हैं। क्या कोई जानता है कि इस उदाहरण को संकेतन के साथ कैसे व्यक्त किया जाए जो प्रत्येक परत पर क्या हो रहा है? क्या कोई यह समझ पाता है कि वास्तव में उस उदाहरण के साथ क्या हो रहा है और मेरे साथ अपनी बुद्धि साझा करना चाहते हैं?
[१]: Ioffe S. और Szegedy C. (२०१५),
"बैच सामान्यीकरण: आंतरिक कोवरेट शिफ्ट को कम करके डीप नेटवर्क प्रशिक्षण में तेजी",
मशीन लर्निंग , लिली, फ्रांस, 2015 पर 32 वें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही ।
मशीन लर्निंग का जर्नल अनुसंधान: डब्ल्यू एंड सीपी मात्रा 37