जहां तक मैं इसे समझता हूं, बैच मान एक इकाई सामान्य वितरण के लिए एक परत के लिए सभी इनपुट सुविधाओं को सामान्य करता है, । माध्य और विचरण वर्तमान मिनी-बैच के लिए उनके मूल्यों को मापने के द्वारा अनुमान लगाया जाता है।
सामान्यीकरण के बाद इनपुट को स्केलर मानों द्वारा स्केल और शिफ्ट किया जाता है:
(मुझे सही करें अगर मैं यहां गलत हूं - यह वह जगह है जहां मैं थोड़ा अनिश्चित होने लगता हूं।)
तथा अदिश मान हैं और हर बैच-नॉर्म्ड परत के लिए प्रत्येक की एक जोड़ी है। उन्हें बैकपॉप और एसडब्ल्यूई का उपयोग करके वज़न के साथ सीखा जाता है।
मेरा प्रश्न यह है कि ये पैरामीटर निरर्थक नहीं हैं, क्योंकि इनपुट्स को किसी भी तरह से लेयर में वेट करके शिफ्ट किया जा सकता है। दूसरे शब्दों में, यदि
तथा
फिर
कहाँ पे तथा ।
तो उन्हें नेटवर्क से जोड़ने का क्या मतलब है जो पहले से ही स्केल और शिफ्ट सीखने में सक्षम है? या मैं पूरी तरह से गलतफहमी हूँ?