में दीप सीखने के लिए पर बड़े बैच प्रशिक्षण: सामान्यीकरण गैप और तीव्र Minima intersting बयान के एक जोड़े हैं:
व्यवहार में यह देखा गया है कि बड़े बैच का उपयोग करते समय मॉडल की गुणवत्ता में गिरावट होती है, जैसा कि इसके सामान्यीकरण की क्षमता से मापा जाता है [...]
बड़े-बैच के तरीकों में प्रशिक्षण और परीक्षण कार्यों के तेज न्यूनीकरण शामिल हैं- और जैसा कि सर्वविदित है, तेज मिनिमा गरीब सामान्यीकरण की ओर ले जाती है। एन। इसके विपरीत, छोटे-बैच तरीके लगातार फ्लैट मिनिमाइज़र में परिवर्तित हो जाते हैं, और हमारे प्रयोग आम तौर पर आयोजित दृष्टिकोण का समर्थन करते हैं कि यह क्रमिक अनुमान में निहित शोर के कारण है।
से मेरी स्वामी थीसिस : इसलिए मिनी बैच आकार को प्रभावित करती है की पसंद:
- अभिसरण तक प्रशिक्षण का समय : एक मीठा स्थान लगता है। यदि बैच का आकार बहुत छोटा है (उदाहरण 8), तो यह समय बढ़ जाता है। यदि बैच का आकार बड़ा है, तो यह न्यूनतम से भी अधिक है।
- प्रति काल प्रशिक्षण समय : बड़ा तेजी से गणना करता है (कुशल है)
- परिणामी मॉडल गुणवत्ता : बेहतर सामान्यीकरण (?) के कारण कम बेहतर
हाइपर-पैरामीटर इंटरैक्शन को नोट करना महत्वपूर्ण है : बैच आकार अन्य हाइपर-मापदंडों के साथ बातचीत कर सकता है, सबसे विशेष रूप से सीखने की दर। कुछ प्रयोगों में यह इंटरैक्शन मॉडल की गुणवत्ता पर अकेले बैच आकार के प्रभाव को अलग करना मुश्किल बना सकता है। एक और मजबूत बातचीत नियमितीकरण के लिए शुरुआती रोक के साथ है।
यह सभी देखें