बैच नॉर्म्स में सीखने योग्य पैमाना और बदलाव क्यों होता है?


13

जहां तक ​​मैं इसे समझता हूं, बैच मान एक इकाई सामान्य वितरण के लिए एक परत के लिए सभी इनपुट सुविधाओं को सामान्य करता है, N(μ=0,σ=1)। माध्य और विचरणμ,σ2 वर्तमान मिनी-बैच के लिए उनके मूल्यों को मापने के द्वारा अनुमान लगाया जाता है।

सामान्यीकरण के बाद इनपुट को स्केलर मानों द्वारा स्केल और शिफ्ट किया जाता है:

x^i=γx^i+β

(मुझे सही करें अगर मैं यहां गलत हूं - यह वह जगह है जहां मैं थोड़ा अनिश्चित होने लगता हूं।)

γ तथा βअदिश मान हैं और हर बैच-नॉर्म्ड परत के लिए प्रत्येक की एक जोड़ी है। उन्हें बैकपॉप और एसडब्ल्यूई का उपयोग करके वज़न के साथ सीखा जाता है।

मेरा प्रश्न यह है कि ये पैरामीटर निरर्थक नहीं हैं, क्योंकि इनपुट्स को किसी भी तरह से लेयर में वेट करके शिफ्ट किया जा सकता है। दूसरे शब्दों में, यदि

y=Wx^+b

तथा

x^=γx^+β

फिर

y=Wx^+b

कहाँ पे W=Wγ तथा b=Wβ+b

तो उन्हें नेटवर्क से जोड़ने का क्या मतलब है जो पहले से ही स्केल और शिफ्ट सीखने में सक्षम है? या मैं पूरी तरह से गलतफहमी हूँ?

जवाबों:


13

दीप लर्निंग बुक में एक सही उत्तर है , धारा 8.7.1 :

एक इकाई के माध्य और मानक विचलन को सामान्य करने से उस इकाई वाले तंत्रिका नेटवर्क की अभिव्यंजक शक्ति को कम किया जा सकता है। नेटवर्क की अभिव्यंजक शक्ति को बनाए रखने के लिए, छिपी हुई इकाई सक्रियण एच के बैच को +H + the से बदलना सामान्य है बजाय सामान्यीकृत एच के। चर γ और parameters सीखे गए पैरामीटर हैं जो नए चर को किसी भी अर्थ में रखने की अनुमति देते हैं और मानक विचलन। पहली नज़र में, यह बेकार लग सकता है - हमने 0 का मतलब क्यों सेट किया, और फिर एक पैरामीटर पेश किया जो इसे किसी भी मनमाने मूल्य पर वापस सेट करने की अनुमति देता है may?

इसका उत्तर यह है कि नए पैरामीरिजेशन पुराने पैरामीरिजेशन के रूप में इनपुट के कार्यों के एक ही परिवार का प्रतिनिधित्व कर सकते हैं, लेकिन नए पैरामीरिजेशन में अलग-अलग सीखने की गतिशीलता है। पुराने पैरामीरिजेशन में, एच का मतलब एच के नीचे की परतों में मापदंडों के बीच एक जटिल बातचीत द्वारा निर्धारित किया गया था। नए पैरामीरिजेशन में, +H + β का मतलब केवल z द्वारा निर्धारित किया जाता है। नए पैरामीट्रिएशन को ग्रेडिएंट डिसेंट के साथ सीखना बहुत आसान है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.