स्टोचस्टिक ग्रेडिएंट डिसेंट (SGD) के लिए एक उपयुक्त मिनीबैच आकार चुनना


13

क्या कोई साहित्य है जो स्टोकेस्टिक क्रमिक वंश प्रदर्शन करते समय मिनीबच आकार की पसंद की जांच करता है? मेरे अनुभव में, यह एक अनुभवजन्य विकल्प प्रतीत होता है, जो आमतौर पर क्रॉस-मान्यता के माध्यम से या अंगूठे के अलग-अलग नियमों का उपयोग करके पाया जाता है।

क्या यह एक अच्छा विचार है कि धीरे-धीरे मिनीबच का आकार बढ़ाया जाए क्योंकि सत्यापन में त्रुटि कम हो जाती है? सामान्यीकरण त्रुटि पर इसका क्या प्रभाव पड़ेगा? क्या मैं एक बहुत छोटी मिनीबैच का उपयोग कर रहा हूं और अपने मॉडल को सैकड़ों हजारों बार अपडेट कर रहा हूं? क्या मैं बेहद छोटे और बैच के बीच एक संतुलित संख्या के साथ बेहतर होगा?
क्या मुझे डेटासेट के आकार, या डेटासेट के भीतर अपेक्षित संख्या के साथ अपने मिनीबैच के आकार को मापना चाहिए?

जाहिर है कि मेरे पास मिनीबच सीखने की योजनाओं को लागू करने के बारे में बहुत सारे सवाल हैं। दुर्भाग्य से, मेरे द्वारा पढ़े गए अधिकांश कागजात वास्तव में निर्दिष्ट नहीं करते हैं कि उन्होंने इस हाइपरपरमीटर को कैसे चुना। मुझे लेखकों से कुछ सफलता मिली है जैसे कि यान लेकन, विशेष रूप से कागजात के व्यापार संग्रह के ट्रिक्स से। हालाँकि, मैंने अभी भी इन सवालों को पूरी तरह से संबोधित नहीं किया है। क्या किसी के पास कागजात के लिए कोई सिफारिश है, या सलाह है कि मैं सुविधाओं को सीखने की कोशिश करते समय अच्छे मिनीबच आकार निर्धारित करने के लिए किन मानदंडों का उपयोग कर सकता हूं?


मुझे इस विषय पर बहुत अधिक हिट नहीं लग रहे हैं। मशीन लर्निंग या डीप लर्निंग के सवाल पूछने के लिए क्या बेहतर स्टैक एक्सचेंज साइट है?
जेसन__बेंस २०

जवाबों:


6

SGD की प्रभावशीलता के लिए सिद्धांत को एकल उदाहरण अपडेट (यानी मिनीबैच आकार 1) पर काम किया गया था, इसलिए बड़े मिनीबैच का उपयोग करना सैद्धांतिक रूप से आवश्यक नहीं है। इसके दो व्यावहारिक लाभ हैं:

एक , यदि गणना को वेक्टर किया जा सकता है, तो आप छोटे मिनीबच> 1 के लिए ग्रेडिएंट की गणना करने में सक्षम हो सकते हैं> लगभग समान रूप से जल्दी से, प्रशिक्षण में महत्वपूर्ण गति बढ़ जाती है।

इस मामले में, इष्टतम मिनीबैच आकार एक विशेष हार्डवेयर और कार्यान्वयन का एक कार्य है, जिसके साथ आप काम कर रहे हैं, इसलिए संभवत: आप मीठे स्थान को खोजने के लिए प्रयोग करना सबसे अच्छा है।

दो , एक मिनीबैच आकार> 1 पर ग्रेडिएंट की गणना करने से अधिक सटीक ग्रेडिएंट और अधिक इष्टतम कदम होंगे। लेकिन यह लाभ पहुंच जाएगा और एक बार मिनीबैच का आकार 1 से अधिक हो जाने के बाद जल्दी से समतल होगा, इसलिए आप मुख्य रूप से पहले उद्देश्य पर ध्यान केंद्रित कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.