मेरे ज्ञान का सबसे अच्छा करने के लिए, आप जिस चीज़ की तलाश कर रहे हैं, वह निकटतम है Google शोधकर्ताओं द्वारा यह हालिया लेख: बैच सामान्यीकरण: आंतरिक कोवरिएट शिफ्ट को कम करके गहन नेटवर्क प्रशिक्षण में तेजी ।
बैच सामान्यीकरण
एक परत पर विचार करें एलसक्रियण उत्पादन yएल= च( डब्ल्यू।)x + b ) कहाँ पे च नॉनलाइनियरिटी (ReLU, tanh, आदि), डब्ल्यू, बी क्रमशः वज़न और पूर्वाग्रह हैं और एक्स डेटा का छोटा हिस्सा है।
बैच सामान्यीकरण (बीएन) निम्नलिखित में से क्या है:
- मानकीकरण डब्ल्यूx + बीशून्य और विचरण का मतलब है। हम इसे मिनीबैच के पार करते हैं। चलोएक्स^ मानकीकृत मध्यवर्ती सक्रियण मूल्यों को निरूपित करें, अर्थात एक्स^ का सामान्यीकृत संस्करण है डब्ल्यूx + बी।
- एक परिमाणित (सीखने योग्य) परिशोधन परिवर्तन लागू करें एक्स^→ γएक्स^+ β।
- अशुद्धता लागू करें: y^एल=च( γएक्स^+β)।
तो, बीएन "कच्चे" (पढ़ें: इससे पहले कि हम nonlinearity लागू करें) सक्रियण आउटपुट का अर्थ शून्य, विचरण 1 के रूप में मानकीकृत करें, और फिर हम एक सीखा परिशोधन परिवर्तन लागू करते हैं, और फिर अंत में हम अशुद्धता लागू करते हैं। कुछ अर्थों में हम इसकी व्याख्या कर सकते हैं ताकि तंत्रिका नेटवर्क को गैर-नियतात्मकता के लिए एक उपयुक्त पैरामीटरयुक्त इनपुट वितरण सीखने की अनुमति मिल सके।
जैसा कि प्रत्येक ऑपरेशन अलग है, हम सीख सकते हैं γ, β backpropagation के माध्यम से पैरामीटर।
परिवर्तन परिवर्तन प्रेरणा
यदि हम एक पैरामीटरयुक्त परिशोधन परिवर्तन नहीं करते हैं, तो प्रत्येक गैर-समरूपता इनपुट वितरण के लिए शून्य और विचरण 1 वितरण के रूप में होगी। यह उप-इष्टतम हो सकता है या नहीं भी हो सकता है। ध्यान दें कि यदि औसत शून्य, विचरण 1 इनपुट वितरण इष्टतम है, तो affine परिवर्तन सैद्धांतिक रूप से सेटिंग द्वारा इसे पुनर्प्राप्त कर सकता हैβ बैच माध्य और के बराबर γबैच मानक विचलन के बराबर। इस पैरामीटाइज्ड एफाइन ट्रांसफ़ॉर्मेशन के पास नेटवर्क की प्रतिनिधित्व क्षमता (अधिक सीखने योग्य पैरामीटर) बढ़ाने का अतिरिक्त बोनस भी है।
मानकीकरण पहले
पहले मानकीकरण क्यों? क्यों नहीं बस affine परिवर्तन लागू करें? सैद्धांतिक रूप से, कोई भेद नहीं है। हालाँकि, यहाँ एक कंडीशनिंग समस्या हो सकती है। सक्रियण मूल्यों को पहले मानकीकृत करने से, शायद इष्टतम सीखना आसान हो जाता हैγ, βमापदंडों। यह विशुद्ध रूप से मेरी ओर से अनुमान है, लेकिन हाल ही में कला के अन्य राज्यों में भी इसी तरह के अनुरूप हैं। उदाहरण के लिए, हाल ही में Microsoft अनुसंधान तकनीकी रिपोर्ट में डीप रेजिडेंशियल लर्निंग फॉर इमेज रिकॉग्निशन , उन्होंने प्रभावी रूप से एक परिवर्तन सीखा जहां उन्होंने तुलना के लिए संदर्भ या आधार रेखा के रूप में पहचान परिवर्तन का उपयोग किया। Microsoft सह-लेखकों का मानना था कि इस संदर्भ या आधार रेखा के होने से समस्या को पूर्व स्थिति में लाने में मदद मिली। मुझे विश्वास नहीं है कि यह आश्चर्य की बात है कि बीएन और प्रारंभिक मानकीकरण कदम के साथ यहां कुछ समान है।
बीएन अनुप्रयोग
एक विशेष रूप से दिलचस्प परिणाम यह है कि बैच सामान्यीकरण का उपयोग करते हुए, Google टीम इमेजनेट पर प्रशिक्षित करने और सुंदर प्रतिस्पर्धी परिणाम प्राप्त करने के लिए एक टैन इन्सेप्शन नेटवर्क प्राप्त करने में सक्षम थी। तनह एक संतृप्त नॉनलाइनरिटी है और इस प्रकार के नेटवर्कों को उनके संतृप्ति / लुप्त ग्रेडिएंट्स समस्या के कारण सीखना मुश्किल हो गया है। हालांकि, बैच सामान्यीकरण का उपयोग करते हुए, कोई यह मान सकता है कि नेटवर्क एक परिवर्तन सीखने में सक्षम था जो सक्रिय उत्पादन मानों को गैर-संतृप्त शासन के गैर-संतृप्त शासन में मैप करता है।
अंतिम नोट्स
वे उसी यान लेकन फैक्टॉइड का भी उल्लेख करते हैं जिसे आपने बैच सामान्यीकरण के लिए प्रेरणा के रूप में उल्लेख किया था।