Backpropagation एल्गोरिथ्म के लिए संवेग शब्द कैसे काम करता है?

जब एक गति के साथ backpropagation एल्गोरिथ्म का उपयोग करते हुए एक तंत्रिका नेटवर्क के वजन को अद्यतन करते हैं, तो क्या सीखने की दर को गति शब्द पर भी लागू किया जाना चाहिए?

अधिकांश जानकारी मैं गति का उपयोग करने के बारे में पा सकता हूं, समीकरण कुछ इस तरह दिख रहे हैं:

$W_{i}' = W_{i} - \alpha \Delta W_i + \mu \Delta W_{i-1}$

जहाँ सीखने की दर है, और गति शब्द है। $\alpha$ $\mu$

यदि शब्द शब्द से बड़ा है तो अगले पुनरावृत्ति में पिछले पुनरावृत्ति से वर्तमान भार की तुलना में भार पर अधिक प्रभाव डालेगा। $\mu$ $\alpha$ $\Delta W$

क्या यह गति शब्द का उद्देश्य है? या समीकरण इस तरह अधिक दिखना चाहिए?

$W_{i}' = W_{i} - \alpha( \Delta W_i + \mu \Delta W_{i-1})$

अर्थात। सीखने की दर से सब कुछ स्केलिंग?

machine-learning neural-networks

— guskenny83
स्रोत

के साथ एक नेटवर्क में गति के साथ backpropagation का उपयोग विभिन्न भार मई के सुधार के लिए वजन द्वारा दिया जाता है $n$ $W_k$ $i$ $W_k$

$\Delta W_k(i) = -\alpha \frac{\partial E}{\partial W_k} + \mu \Delta W_k(i-1)$ जहां का रूपांतर है नुकसान । $\frac{\partial E}{\partial W_k}$ $W_k$

संवेग दर का परिचय क्रमिक वंश में दोलनों के क्षीणन की अनुमति देता है। इस विचार के पीछे के ज्यामितीय विचार को संभवतः रैखिक मामले में एक ईगेंसपेस विश्लेषण के संदर्भ में समझा जा सकता है। यदि सबसे कम और सबसे बड़े ईगेंवल्यू के बीच का अनुपात बड़ा है, तो एक ढाल का प्रदर्शन धीमा है भले ही सीखने की दर मैट्रिक्स की कंडीशनिंग के कारण बड़ी हो। गति कम और बड़े eigenvalues से जुड़े eigenvectors के बीच अद्यतन में कुछ संतुलन का परिचय देती है।

अधिक विस्तार के लिए मैं संदर्भित करता हूं

http://page.mi.fu-berlin.de/rojas/neural/chapter/K8.pdf

— निको
स्रोत

अंडरब्रेस क्या दर्शाता है?

— डेविड रिचरबी

ठीक है, इसलिए जब "नया" वजन मान की गणना की बजाय शब्द की गणना करते समय गति शब्द को शामिल किया जाता है ? बस स्पष्ट करने के लिए, क्या आपका शब्द होना चाहिए ? या क्या यह दर में बदलाव के बजाय वास्तविक वजन का अनुपात है? आपकी प्रतिक्रिया के लिए धन्यवाद, और कागज के लिंक के लिए।

Δ W_{k}

$\Delta W_k$

μ W_{k} (i - 1)

$\mu W_k(i-1)$

μ Δ W_{k} (i - 1)

$\mu \Delta W_k(i-1)$

— guskenny83

गलती को इंगित करने के लिए धन्यवाद। यह निश्चित रूप से

Δ W_{k} (i - 1)

$\Delta W_k(i-1)$

— nico

"नुकसान की भिन्नता" से आपका क्या मतलब है? क्या ऐसा कुछ "त्रुटि में भिन्नता" है?

— स्टारबिम्रेनबोल्ब्स 15

इसका मतलब कुछ भी नहीं है, लेकिन वजन के संबंध में त्रुटि के व्युत्पन्न।

— निको