पूर्ण डेटासेट के विपरीत मिनीबच का उपयोग करने का मुख्य लाभ स्टोचैस्टिक ग्रेडिएंट डिसेंट 1 के मूल विचार पर वापस जाता है ।
बैच ग्रेडिएंट डिसेंट में, आप संभावित रूप से बड़ी मात्रा में जानकारी के औसत पर, संपूर्ण डेटासेट पर ग्रेडिएंट की गणना करते हैं। ऐसा करने में बहुत सारी मेमोरी लगती है। लेकिन असली बाधा एक खराब स्थान (काठी बिंदु) में बैच ग्रेड प्रक्षेपवक्र भूमि है।
दूसरी ओर, शुद्ध SGD में, आप अपने मापदंडों को अपडेट करके (माइनस साइन) जोड़कर डेटासेट की एकल आवृत्ति पर गणना की गई ढाल को जोड़ते हैं । चूंकि यह एक यादृच्छिक डेटा बिंदु पर आधारित है, इसलिए यह बहुत शोर है और बैच ढाल से दूर एक दिशा में जा सकता है। हालांकि, नीरवता वही है जो आप गैर-उत्तल अनुकूलन में चाहते हैं, क्योंकि यह आपको काठी के बिंदुओं या स्थानीय मिनीमा से बचने में मदद करता है ([2] में प्रमेय 6)। नुकसान यह बहुत ही अक्षम है और आपको एक अच्छा समाधान खोजने के लिए कई बार पूरे डेटासेट पर लूप करने की आवश्यकता होती है।
मिनीबैच कार्यप्रणाली एक समझौता है जो प्रत्येक सापेक्ष अद्यतन के लिए पर्याप्त शोर को इंजेक्ट करता है, जबकि एक रिश्तेदार शीघ्र अभिसरण प्राप्त करता है।
1 बोटौ, एल। (2010)। स्टोचस्टिक ढाल वंश के साथ बड़े पैमाने पर मशीन सीखने। COMPSTAT'2010 (पीपी। 177-186) की कार्यवाही में। Physica-Verlag HD।
[२] जीई, आर।, हुआंग, एफ।, जिन, सी।, और युआन, वाई। (२०१५, जून)। टेंसर डिकम्पोजिशन के लिए सैडल पॉइंट्स-ऑनलाइन स्टोचस्टिक ग्रेडिएंट से बचना। COLT (पीपी। 797-842) में।
संपादित करें:
मैंने अभी यन लेकन के फेसबुक पर इस टिप्पणी को देखा, जो इस प्रश्न पर एक नया दृष्टिकोण देता है (क्षमा करें पता नहीं है कि कैसे एफबी को लिंक किया जाए।)
बड़े मिनीबैच के साथ प्रशिक्षण आपके स्वास्थ्य के लिए बुरा है। इससे भी महत्वपूर्ण बात यह है कि यह आपकी परीक्षण त्रुटि के लिए बुरा है। दोस्तो दोस्तों को 32 से बड़े minibatches का उपयोग न करने दें। आइए इसका सामना करते हैं: 2012 के बाद से केवल एक ही लोगों ने मिनीबैच के आकार को बड़ा किया है, क्योंकि GPU बैच के आकार के 32 से छोटे होने के लिए अक्षम हैं। यह एक भयानक कारण है। इसका मतलब है कि हमारा हार्डवेयर बेकार है।
उन्होंने इस पत्र का हवाला दिया जो अभी कुछ दिन पहले (अप्रैल 2018) पर arXiv पर पोस्ट किया गया है, जो पढ़ने लायक है,
डोमिनिक मास्टर्स, कार्लो लुच्ची, डीप न्यूरल नेटवर्क्स के लिए लघु बैच प्रशिक्षण का पुनरीक्षण , arXiv: 1804.0768v1
अमूर्त से,
जबकि बड़े मिनी-बैचों का उपयोग उपलब्ध कम्प्यूटेशनल समानता को बढ़ाता है, छोटे बैच प्रशिक्षण को बेहतर सामान्यीकरण प्रदर्शन प्रदान करने के लिए दिखाया गया है ...
सबसे अच्छा प्रदर्शन लगातार m-2 और m = 32 के बीच मिनी-बैच आकारों के लिए प्राप्त किया गया है, जो हजारों में मिनी-बैच आकारों के उपयोग की वकालत करने वाले हाल के काम के विपरीत है।