मैं बैच सामान्यीकरण (बीएन) पेपर (1) पढ़ रहा था और मॉडल की सटीकता को ट्रैक करने के लिए मूविंग एवरेज का उपयोग करने की आवश्यकता नहीं समझता था और भले ही मैंने स्वीकार कर लिया कि यह सही काम करना है, मुझे समझ नहीं आ रहा है वे वास्तव में क्या कर रहे हैं।
मेरी समझ में (जो मेरी गलत है), कागज में उल्लेख किया गया है कि यह मिनी-बैच के बजाय जनसंख्या के आँकड़ों का उपयोग करता है, एक बार मॉडल ने प्रशिक्षण समाप्त कर लिया है। निष्पक्ष अनुमानों की कुछ चर्चा के बाद (जो मुझे मूर्त लगता है और समझ में नहीं आता कि यह इस बारे में बात क्यों करता है) वे जाते हैं और कहते हैं:
इसके बजाय चलती औसत का उपयोग करते हुए, हम मॉडल की सटीकता को ट्रैक करते हैं क्योंकि यह ट्रेन है।
यही वह हिस्सा है जो मुझे भ्रमित कर रहा है। वे मॉडल की सटीकता का अनुमान लगाने के लिए मूविंग एवरेज क्यों करते हैं और डेटा सेट क्या है?
आमतौर पर लोग अपने मॉडल के सामान्यीकरण का अनुमान लगाने के लिए क्या करते हैं, वे सिर्फ अपने मॉडल की सत्यापन त्रुटि को ट्रैक करते हैं (और संभवतः अपने ढाल को नियमित करने के लिए बंद कर देते हैं)। हालांकि, ऐसा लगता है कि बैच सामान्यीकरण पूरी तरह से कुछ अलग कर रहा है। क्या कोई स्पष्ट कर सकता है कि क्या और क्यों कुछ अलग कर रहा है?
1 : Ioffe S. और Szegedy C. (2015),
"बैच सामान्यीकरण: आंतरिक कोवरेट शिफ्ट को कम करके डीप नेटवर्क प्रशिक्षण में तेजी",
मशीन लर्निंग , फ्रांस, 2015 पर 32 वें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही । 2015
: मशीन लर्निंग रिसर्च का जर्नल: डब्ल्यू एंड सीपी मात्रा ३ 37