जब एक गति के साथ backpropagation एल्गोरिथ्म का उपयोग करते हुए एक तंत्रिका नेटवर्क के वजन को अद्यतन करते हैं, तो क्या सीखने की दर को गति शब्द पर भी लागू किया जाना चाहिए?
अधिकांश जानकारी मैं गति का उपयोग करने के बारे में पा सकता हूं, समीकरण कुछ इस तरह दिख रहे हैं:
जहाँ सीखने की दर है, और गति शब्द है।
यदि शब्द शब्द से बड़ा है तो अगले पुनरावृत्ति में पिछले पुनरावृत्ति से वर्तमान भार की तुलना में भार पर अधिक प्रभाव डालेगा।
क्या यह गति शब्द का उद्देश्य है? या समीकरण इस तरह अधिक दिखना चाहिए?
अर्थात। सीखने की दर से सब कुछ स्केलिंग?