जब मैंने मिनी बैच ग्रेडिएंट सभ्य लागू किया, तो मैंने प्रशिक्षण बैच में सभी उदाहरणों के ग्रेडिएंट्स को औसत किया। हालाँकि, मैंने देखा कि अब ऑनलाइन ग्रेडिएंट सभ्य के लिए इष्टतम सीखने की दर बहुत अधिक है। मेरा अंतर्ज्ञान यह है कि यह इसलिए है क्योंकि औसत ग्रेडिएंट कम शोर है और इस प्रकार तेजी से पालन किया जा सकता है। तो शायद यह भी समझ में आता है कि एक बैच के ग्रेडिएंट को योग करने के लिए। मूल्य वैसे भी सकारात्मक और नकारात्मक हो सकते हैं।
मुझे पता है कि यह सिर्फ एक स्थिर कारक है जिसे सीखने की दर का उपयोग करके संतुलित किया जा सकता है। लेकिन मुझे आश्चर्य है कि परिभाषा वैज्ञानिकों ने इस पर सहमति व्यक्त की है ताकि मैं तंत्रिका नेटवर्क के कागजात से परिणाम पुन: पेश कर सकूं।
क्या कोई आम तौर पर बैच आकार के बैच ग्रेडर को विभाजित करता है?