मैंने कई चर्चाओं से समान निष्कर्ष निकाला है, जैसा कि मिनीबैच का आकार बड़ा हो जाता है, क्योंकि एसडब्ल्यूई का अभिसरण वास्तव में कठिन / बदतर हो जाता है, उदाहरण के लिए यह पेपर और यह उत्तर । इसके अलावा मैंने बड़े स्तर के आकारों के साथ इस कठिनाई को दूर करने के लिए शुरुआती चरण में छोटे सीखने की दरों या बैच आकारों जैसी चाल का उपयोग करने वाले लोगों के बारे में सुना है।
हालाँकि ऐसा लगता है कि काउंटर-सहज ज्ञान युक्त है क्योंकि मिनीबैच का औसत नुकसान डेटा वितरण पर अपेक्षित नुकसान के अनुमान के रूप में माना जा सकता है,
यहाँ मेरे कुछ (शायद गलत) विचार हैं जो समझाने की कोशिश करते हैं।
मॉडल के पैरामीटर एक-दूसरे पर अत्यधिक निर्भर करते हैं, जब बैच बहुत बड़ा हो जाता है तो यह एक ही बार में कई मापदंडों को प्रभावित करेगा, जैसे कि मापदंडों के लिए एक स्थिर अंतर्निहित निर्भरता तक पहुंचने के लिए इसकी मेहनत? ( बैच सामान्यीकरण पेपर में उल्लिखित आंतरिक कोवरिएट शिफ्ट समस्या की तरह )
या जब लगभग सभी पैरामीटर हर पुनरावृत्ति में जिम्मेदार होते हैं, तो वे निरर्थक निहित पैटर्न सीखना चाहते हैं, इसलिए मॉडल की क्षमता कम हो जाती है? (मेरा मतलब है कि अंकों के वर्गीकरण की समस्याओं के लिए कुछ पैटर्न डॉट्स के लिए जिम्मेदार होने चाहिए, कुछ किनारों के लिए, लेकिन जब ऐसा होता है तो हर पैटर्न सभी आकृतियों के लिए जिम्मेदार होने की कोशिश करता है)।
या यह इसलिए है क्योंकि जब बैचों का आकार प्रशिक्षण सेट के पैमाने के करीब हो जाता है, तो मिनीबैच को डेटा वितरण से आईआईडी के रूप में नहीं देखा जा सकता है, क्योंकि सहसंबद्ध मिनीबैच के लिए एक बड़ी संभावना होगी?
अपडेट
जैसा कि बेनोइट सांचेज़ के जवाब में बताया गया है कि एक महत्वपूर्ण कारण यह है कि बड़े मिनीबच को एक अपडेट को पूरा करने के लिए अधिक गणना की आवश्यकता होती है, और अधिकांश विश्लेषण तुलना के लिए एक निश्चित मात्रा में प्रशिक्षण युग का उपयोग करते हैं।
हालांकि इस पत्र (विल्सन और मार्टिनेज, 2003) से पता चलता है कि एक बड़े बैच का आकार अभी भी थोड़ा नुकसानदेह है, यहां तक कि प्रशिक्षण की पर्याप्त मात्रा भी दी गई है। क्या आमतौर पर ऐसा होता है?