क्या मिनी-बैच के आकार को चुनने के लिए कोई नियम हैं?


21

तंत्रिका नेटवर्क का प्रशिक्षण करते समय, एक हाइपरपरमीटर एक मिनीबैच का आकार होता है। आम विकल्प 32, 64 और 128 तत्व प्रति मिनी बैच हैं।

क्या कोई नियम / दिशानिर्देश हैं कि मिनी-बैच कितना बड़ा होना चाहिए? कोई प्रकाशन जो प्रशिक्षण पर प्रभाव की जांच करता है?


स्मृति में फिटिंग के अलावा अन्य?
एहसान एम। करमानी

हाँ। उदाहरण के लिए, क्या कोई प्रकाशन "बड़े बैच आकार, बेहतर" (जब तक यह स्मृति में फिट बैठता है) के साथ कोई प्रकाशन है?
मार्टिन थोमा

@ एहसानम.कर्मी मुझे लगता है कि यह मायने रखता है। मैंने CIFAR-100 पर कुछ रन बनाए और मुझे बैच के आकार के आधार पर अलग-अलग परिणाम मिले (जल्दी रुकने के साथ ताकि ओवरफिटिंग की समस्या न हो)
मार्टिन थोमा

3
बड़ा तेजी से गणना करता है (कुशल है), छोटे तेजी से अभिसरण करता है, बेहतर सामान्य करता है; सीएफ स्टोचस्टिक ऑप्टिमाइज़ेशन और इस RNN अध्ययन के लिए कुशल मिनी-बैच प्रशिक्षण । एक मीठा स्थान है जिसे आप अपनी समस्या के लिए अनुभवजन्य पाते हैं।
Emre

2
Blei et al द्वारा यह सबसे व्यावहारिक पेपर अभी-अभी सामने आया है: स्टोकेस्टिक ग्रेडिएंट डिसेंट के रूप में अनुमानित बायेसियन इंट्रेंस
Emre

जवाबों:


22

में दीप सीखने के लिए पर बड़े बैच प्रशिक्षण: सामान्यीकरण गैप और तीव्र Minima intersting बयान के एक जोड़े हैं:

व्यवहार में यह देखा गया है कि बड़े बैच का उपयोग करते समय मॉडल की गुणवत्ता में गिरावट होती है, जैसा कि इसके सामान्यीकरण की क्षमता से मापा जाता है [...]

बड़े-बैच के तरीकों में प्रशिक्षण और परीक्षण कार्यों के तेज न्यूनीकरण शामिल हैं- और जैसा कि सर्वविदित है, तेज मिनिमा गरीब सामान्यीकरण की ओर ले जाती है। एन। इसके विपरीत, छोटे-बैच तरीके लगातार फ्लैट मिनिमाइज़र में परिवर्तित हो जाते हैं, और हमारे प्रयोग आम तौर पर आयोजित दृष्टिकोण का समर्थन करते हैं कि यह क्रमिक अनुमान में निहित शोर के कारण है।

से मेरी स्वामी थीसिस : इसलिए मिनी बैच आकार को प्रभावित करती है की पसंद:

  • अभिसरण तक प्रशिक्षण का समय : एक मीठा स्थान लगता है। यदि बैच का आकार बहुत छोटा है (उदाहरण 8), तो यह समय बढ़ जाता है। यदि बैच का आकार बड़ा है, तो यह न्यूनतम से भी अधिक है।
  • प्रति काल प्रशिक्षण समय : बड़ा तेजी से गणना करता है (कुशल है)
  • परिणामी मॉडल गुणवत्ता : बेहतर सामान्यीकरण (?) के कारण कम बेहतर

हाइपर-पैरामीटर इंटरैक्शन को नोट करना महत्वपूर्ण है : बैच आकार अन्य हाइपर-मापदंडों के साथ बातचीत कर सकता है, सबसे विशेष रूप से सीखने की दर। कुछ प्रयोगों में यह इंटरैक्शन मॉडल की गुणवत्ता पर अकेले बैच आकार के प्रभाव को अलग करना मुश्किल बना सकता है। एक और मजबूत बातचीत नियमितीकरण के लिए शुरुआती रोक के साथ है।

यह सभी देखें


@NeilSlater क्या आप अपनी टिप्पणी मेरे (अब सामुदायिक विकि) उत्तर में जोड़ना चाहते हैं?
मार्टिन थोमा

मुझे एक सामान्य के रूप में उत्तर पसंद है। इसके अलावा मैं एक विशिष्ट उदाहरण में बहुत छोटे , विशाल और मिनी-बैच के बारे में एक संख्या की सराहना करना चाहूंगा ।
तो एस

@SoS मिनी-बैच केवल एक शब्द है। "मिनी" एक विशिष्ट आकार को संदर्भित नहीं करता है, लेकिन इसका मतलब केवल यह है कि 1 से अधिक उदाहरण हैं और कुल प्रशिक्षण सेट से कम है। मैं "बहुत छोटा" मानता हूं <= 8 (मैंने सिर्फ उत्तर संपादित किया है)। मैंने इसके लिए दीवार-घड़ी प्रशिक्षण समय में अत्यधिक (5x से अधिक) की वृद्धि को मापा। सामान्य 64 या 128 जैसा कुछ है। मुझे यकीन नहीं है कि "विशाल" क्या है; मुझे लगता है कि यह हार्डवेयर पर निर्भर हो सकता है।
मार्टिन थोमा

यह जवाब उससे ज्यादा सवाल पूछता है। यह मीठा स्थान कहाँ है (शायद एक ग्राफ मदद करेगा)? यह सीखने की दर और शुरुआती रोक के साथ कैसे बातचीत करता है?
xjcl

उत्तर नेटवर्क और डेटासेट पर निर्भर करता है। इसलिए यह विशिष्ट संख्या देने के लिए समझ में नहीं आता है और इसलिए एक ग्राफ मदद नहीं करेगा। अन्य हाइपरपैरमीटर के साथ बातचीत के बारे में: मुझे यकीन नहीं है। इसे आज़माएं और अपने परिणामों को प्रकाशित करें :-)
मार्टिन थोमा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.