मॉडल की सटीकता को ट्रैक करने के लिए बैच सामान्यीकरण कैसे और क्यों चलती औसत का उपयोग करता है क्योंकि यह ट्रेन है?


21

मैं बैच सामान्यीकरण (बीएन) पेपर (1) पढ़ रहा था और मॉडल की सटीकता को ट्रैक करने के लिए मूविंग एवरेज का उपयोग करने की आवश्यकता नहीं समझता था और भले ही मैंने स्वीकार कर लिया कि यह सही काम करना है, मुझे समझ नहीं आ रहा है वे वास्तव में क्या कर रहे हैं।

मेरी समझ में (जो मेरी गलत है), कागज में उल्लेख किया गया है कि यह मिनी-बैच के बजाय जनसंख्या के आँकड़ों का उपयोग करता है, एक बार मॉडल ने प्रशिक्षण समाप्त कर लिया है। निष्पक्ष अनुमानों की कुछ चर्चा के बाद (जो मुझे मूर्त लगता है और समझ में नहीं आता कि यह इस बारे में बात क्यों करता है) वे जाते हैं और कहते हैं:

इसके बजाय चलती औसत का उपयोग करते हुए, हम मॉडल की सटीकता को ट्रैक करते हैं क्योंकि यह ट्रेन है।

यही वह हिस्सा है जो मुझे भ्रमित कर रहा है। वे मॉडल की सटीकता का अनुमान लगाने के लिए मूविंग एवरेज क्यों करते हैं और डेटा सेट क्या है?

आमतौर पर लोग अपने मॉडल के सामान्यीकरण का अनुमान लगाने के लिए क्या करते हैं, वे सिर्फ अपने मॉडल की सत्यापन त्रुटि को ट्रैक करते हैं (और संभवतः अपने ढाल को नियमित करने के लिए बंद कर देते हैं)। हालांकि, ऐसा लगता है कि बैच सामान्यीकरण पूरी तरह से कुछ अलग कर रहा है। क्या कोई स्पष्ट कर सकता है कि क्या और क्यों कुछ अलग कर रहा है?


1 : Ioffe S. और Szegedy C. (2015),
"बैच सामान्यीकरण: आंतरिक कोवरेट शिफ्ट को कम करके डीप नेटवर्क प्रशिक्षण में तेजी",
मशीन लर्निंग , फ्रांस, 2015 पर 32 वें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही । 2015
: मशीन लर्निंग रिसर्च का जर्नल: डब्ल्यू एंड सीपी मात्रा ३ 37


क्या आप उत्थित उत्तर से संतुष्ट हैं? यदि आप मुझसे पूछें तो यह "जवाब" नहीं है; यदि अभी भी प्रासंगिक है, तो मैं एक बेहतर उत्तर प्रदान कर सकता हूं।
ओवरलॉर्डगोल्डड्रैगन

@OverLordGoldDragon उर खुद का जवाब दें :)
Pinocchio

जवाबों:


8

पहली बात जब हम बैच_नॉर्मलाइज़ेशन का उपयोग कर रहे हैं, तो यह समझना होगा कि प्रशिक्षण और परीक्षण में यह दो अलग-अलग तरीकों पर काम करता है ।

  1. प्रशिक्षण में हमें बैच को सामान्य करने के लिए मिनी बैच माध्य की गणना करने की आवश्यकता होती है

  2. हम केवल पूर्व-गणना वाले मिनी बैच आँकड़ों को लागू करते हैं

तो दूसरी बात इस मिनी बैच स्टैटिक्स की गणना कैसे करें

यहाँ चलती औसत आती है

running_mean = momentum * running_mean + (1 - momentum) * sample_mean
running_var = momentum * running_var + (1 - momentum) * sample_var

यह सवाल का जवाब नहीं देता है; "क्यों" और "कैसे" पूछा गया था, और एक सतही "क्या" दिया गया था। इसे उखाड़ा नहीं जाना चाहिए।
ओवरलॉर्डगोल्डड्रैगन

1

वे बैच सामान्यीकरण के बारे में बात कर रहे हैं, जिसे उन्होंने प्रशिक्षण प्रक्रिया के लिए वर्णित किया है, लेकिन अनुमान के लिए नहीं।

यह नमूना साधनों आदि का उपयोग करके छिपी हुई इकाइयों को सामान्य करने की एक प्रक्रिया है।

इस खंड में वे समझाते हैं कि जब आप सिर्फ भविष्यवाणियाँ कर रहे हों (जब प्रशिक्षण पूरा हो चुका हो) तब अनुमान लगाने के चरण के लिए क्या करें।

हालाँकि, सत्यापन को रोकने के लिए आप अपनी मान्यता की त्रुटि का अनुमान लगाने के लिए प्रशिक्षण के साथ निर्धारित सत्यापन पर भविष्यवाणी करना चाहते हैं।

तो इस प्रक्रिया के दौरान आपके पास जनसंख्या औसत नहीं है (औसत अभी भी आप ट्रेन के रूप में बदल रहे हैं), तो आप सत्यापन सेट पर प्रदर्शन की गणना करने के लिए बैच मानदंड की गणना करने के लिए औसत रनिंग का उपयोग करते हैं।

यह इस अर्थ में है कि

इसके बजाय चलती औसत का उपयोग करते हुए, हम मॉडल की सटीकता को ट्रैक करते हैं क्योंकि यह ट्रेन है।

तंत्रिका नेटवर्क प्रदर्शन के लिए एक मीट्रिक के रूप में चल रहे साधनों का उपयोग करके शाब्दिक रूप से कुछ नहीं करना है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.