(मिनी) बैच ढाल में ग्रेडिएंट्स का योग या औसत?

जब मैंने मिनी बैच ग्रेडिएंट सभ्य लागू किया, तो मैंने प्रशिक्षण बैच में सभी उदाहरणों के ग्रेडिएंट्स को औसत किया। हालाँकि, मैंने देखा कि अब ऑनलाइन ग्रेडिएंट सभ्य के लिए इष्टतम सीखने की दर बहुत अधिक है। मेरा अंतर्ज्ञान यह है कि यह इसलिए है क्योंकि औसत ग्रेडिएंट कम शोर है और इस प्रकार तेजी से पालन किया जा सकता है। तो शायद यह भी समझ में आता है कि एक बैच के ग्रेडिएंट को योग करने के लिए। मूल्य वैसे भी सकारात्मक और नकारात्मक हो सकते हैं।

मुझे पता है कि यह सिर्फ एक स्थिर कारक है जिसे सीखने की दर का उपयोग करके संतुलित किया जा सकता है। लेकिन मुझे आश्चर्य है कि परिभाषा वैज्ञानिकों ने इस पर सहमति व्यक्त की है ताकि मैं तंत्रिका नेटवर्क के कागजात से परिणाम पुन: पेश कर सकूं।

क्या कोई आम तौर पर बैच आकार के बैच ग्रेडर को विभाजित करता है?

neural-networks gradient-descent backpropagation

— danijar
स्रोत

औसत।

उदाहरण: एलेक्स हॉलेहाउस द्वारा संकलित एंड्रयूज के एंड्रयू एनजी मशीन लर्निंग कोर्स के नोट्स।

अलग-अलग नमूनों की वजह से ग्रेडिएंट्स को समेटने से आपको बहुत स्मूथ ग्रेडिएंट मिलता है। वजन को अपडेट करने में उपयोग किए जाने वाले परिणामस्वरूप ढाल को जितना बड़ा किया जाएगा उतना बड़ा बैच होगा।

योग को बैच आकार से विभाजित करने और औसत ढाल लेने का प्रभाव पड़ता है:

वजन का परिमाण अनुपात से बाहर नहीं बढ़ता है। वजन अपडेट में एल 2 नियमितीकरण को जोड़ना बड़े वजन मूल्यों को दंडित करता है। यह अक्सर सामान्यीकरण प्रदर्शन को बेहतर बनाता है। औसत ले रहा है, खासकर अगर ग्रेडिएंट एक ही दिशा में इंगित करने के लिए होता है, तो वजन को बहुत बड़ा होने से रोकते हैं।
ग्रेडिएंट का परिमाण बैच आकार से स्वतंत्र है। यह विभिन्न बैच आकारों का उपयोग करके अन्य प्रयोगों से भार की तुलना करने की अनुमति देता है।
सीखने की दर के साथ बैच आकार के प्रभाव का मुकाबला करना संख्यात्मक रूप से समतुल्य हो सकता है लेकिन आप एक सीखने की दर के साथ अंत करते हैं जो विशिष्ट कार्यान्वयन है। यदि आपके द्वारा उपयोग किए जा रहे मापदंडों के पैमाने से संबंधित नहीं हो सकते हैं और उन्हें आपके प्रयोग को पुन: प्रस्तुत करने में समस्या नहीं होगी, तो आपके परिणामों और प्रायोगिक सेटअप को संप्रेषित करना कठिन हो जाता है।

एवरेजिंग स्पष्ट तुलनात्मकता को सक्षम करता है और ग्रेड आकार से स्वतंत्र ढाल परिमाण रखता है। बैच आकार चुनना कभी-कभी आपके पास मौजूद कम्प्यूटेशनल संसाधनों से विवश होता है और जब आप अपने मॉडल का मूल्यांकन करते हैं तो इस के प्रभाव को कम करना चाहते हैं।

— ypx
स्रोत

लिंक अब मृत है

— cdeterman

अद्यतन लिंक, मूल स्लाइड से लिंक नहीं कर सकता है ताकि एलेक्स होलहाउस द्वारा अच्छी तरह से संकलित नोट्स का विकल्प चुना जा सके ।

— ypx

यह ट्यूटोरियल औसत के बजाय समन के

— AD