(मिनी) बैच ढाल में ग्रेडिएंट्स का योग या औसत?


15

जब मैंने मिनी बैच ग्रेडिएंट सभ्य लागू किया, तो मैंने प्रशिक्षण बैच में सभी उदाहरणों के ग्रेडिएंट्स को औसत किया। हालाँकि, मैंने देखा कि अब ऑनलाइन ग्रेडिएंट सभ्य के लिए इष्टतम सीखने की दर बहुत अधिक है। मेरा अंतर्ज्ञान यह है कि यह इसलिए है क्योंकि औसत ग्रेडिएंट कम शोर है और इस प्रकार तेजी से पालन किया जा सकता है। तो शायद यह भी समझ में आता है कि एक बैच के ग्रेडिएंट को योग करने के लिए। मूल्य वैसे भी सकारात्मक और नकारात्मक हो सकते हैं।

मुझे पता है कि यह सिर्फ एक स्थिर कारक है जिसे सीखने की दर का उपयोग करके संतुलित किया जा सकता है। लेकिन मुझे आश्चर्य है कि परिभाषा वैज्ञानिकों ने इस पर सहमति व्यक्त की है ताकि मैं तंत्रिका नेटवर्क के कागजात से परिणाम पुन: पेश कर सकूं।

क्या कोई आम तौर पर बैच आकार के बैच ग्रेडर को विभाजित करता है?

जवाबों:


21

औसत।

उदाहरण: एलेक्स हॉलेहाउस द्वारा संकलित एंड्रयूज के एंड्रयू एनजी मशीन लर्निंग कोर्स के नोट्स।

अलग-अलग नमूनों की वजह से ग्रेडिएंट्स को समेटने से आपको बहुत स्मूथ ग्रेडिएंट मिलता है। वजन को अपडेट करने में उपयोग किए जाने वाले परिणामस्वरूप ढाल को जितना बड़ा किया जाएगा उतना बड़ा बैच होगा।

योग को बैच आकार से विभाजित करने और औसत ढाल लेने का प्रभाव पड़ता है:

  1. वजन का परिमाण अनुपात से बाहर नहीं बढ़ता है। वजन अपडेट में एल 2 नियमितीकरण को जोड़ना बड़े वजन मूल्यों को दंडित करता है। यह अक्सर सामान्यीकरण प्रदर्शन को बेहतर बनाता है। औसत ले रहा है, खासकर अगर ग्रेडिएंट एक ही दिशा में इंगित करने के लिए होता है, तो वजन को बहुत बड़ा होने से रोकते हैं।
  2. ग्रेडिएंट का परिमाण बैच आकार से स्वतंत्र है। यह विभिन्न बैच आकारों का उपयोग करके अन्य प्रयोगों से भार की तुलना करने की अनुमति देता है।
  3. सीखने की दर के साथ बैच आकार के प्रभाव का मुकाबला करना संख्यात्मक रूप से समतुल्य हो सकता है लेकिन आप एक सीखने की दर के साथ अंत करते हैं जो विशिष्ट कार्यान्वयन है। यदि आपके द्वारा उपयोग किए जा रहे मापदंडों के पैमाने से संबंधित नहीं हो सकते हैं और उन्हें आपके प्रयोग को पुन: प्रस्तुत करने में समस्या नहीं होगी, तो आपके परिणामों और प्रायोगिक सेटअप को संप्रेषित करना कठिन हो जाता है।

एवरेजिंग स्पष्ट तुलनात्मकता को सक्षम करता है और ग्रेड आकार से स्वतंत्र ढाल परिमाण रखता है। बैच आकार चुनना कभी-कभी आपके पास मौजूद कम्प्यूटेशनल संसाधनों से विवश होता है और जब आप अपने मॉडल का मूल्यांकन करते हैं तो इस के प्रभाव को कम करना चाहते हैं।


लिंक अब मृत है
cdeterman

1
अद्यतन लिंक, मूल स्लाइड से लिंक नहीं कर सकता है ताकि एलेक्स होलहाउस द्वारा अच्छी तरह से संकलित नोट्स का विकल्प चुना जा सके
ypx

यह ट्यूटोरियल औसत के बजाय समन के
AD
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.