तंत्रिका शुद्ध वजन क्षय और सीखने की दर के बीच अंतर

तंत्रिका नेटवर्क के संदर्भ में, सीखने की दर और वजन घटने में क्या अंतर है?

neural-networks terminology

जवाबों:

161

सीखने की दर एक पैरामीटर है जो निर्धारित करता है कि एक अद्यतन कदम कितना वजन के वर्तमान मूल्य को प्रभावित करता है। जबकि वेट अपडेट नियम में वज़न क्षय एक अतिरिक्त शब्द है, जिसके कारण कोई अन्य अपडेट शेड्यूल न होने पर वज़न तेज़ी से क्षय हो जाता है।

तो चलिए बताते हैं कि हमारे पास लागत या त्रुटि फ़ंक्शन जिसे हम कम से कम करना चाहते हैं। ढाल वंश हमें बताता है वजन संशोधित करने के लिए में सबसे ज्यादा वंश की दिशा में : $E(\mathbf{w})$ $\mathbf{w}$ $E$

w_{i} \leftarrow w_{i} - η \frac{\partial E}{\partial w_{i}},

$\begin{equation} w_i \leftarrow w_i-\eta\frac{\partial E}{\partial w_i}, \end{equation}$

η

$\eta$

w_{i}

$w_i$

$\widetilde{E}(\mathbf{w})=E(\mathbf{w})+\frac{\lambda}{2}\mathbf{w}^2$ $\lambda$ $E$

w_{i} \leftarrow w_{i} - η \frac{\partial E}{\partial w_{i}} - η λ w_{i} .

$\begin{equation} w_i \leftarrow w_i-\eta\frac{\partial E}{\partial w_i}-\eta\lambda w_i. \end{equation}$

- η λ w_{i}

$-\eta\lambda w_i$

— मृग
स्रोत

उपयोगी स्पष्टीकरण के लिए धन्यवाद। एक प्रश्न: "एननेट" आर पैकेज में तंत्रिका नेटवर्क के प्रशिक्षण में उपयोग किया जाने वाला एक पैरामीटर है जिसे "क्षय" कहा जाता है। क्या आपको पता है कि क्षय आपके लैम्ब्डा या आपके एटा * लैम्ब्डा से मेल खाता है?

— एंड्रिया इयानि

मैं यह भी कहना चाहूंगा कि वजन घटाना L2 के नियमितीकरण की ही तरह है जो उन लोगों के लिए है जो बाद के परिचित हैं।

— सर्गेई

@ सर्गी कृपया, इस गलत सूचना को फैलाना बंद करें! यह केवल वेनिला SGD के विशेष मामले में सच है। एडम पेपर के लिए फिक्सिंग वजन क्षय देखें ।

— लुकासब

स्पष्ट करने के लिए: लेखन के समय, एडम के लिए PyTorch डॉक्स शब्द "वज़न क्षय" ( पितृसत्तात्मक रूप से "L2 दंड") का उपयोग करता है, यह संदर्भित करने के लिए कि मुझे क्या लगता है कि लेखक L2 विनियमन कहते हैं। अगर मैं सही ढंग से समझूं, तो यह उत्तर बगैर किसी गति के डब्ल्यूडब्ल्यूडी को संदर्भित करता है, जहां दोनों समान हैं।

— डायलन एफ

तंत्रिका नेटवर्क के कई व्यावहारिक अनुप्रयोग के लिए @ मृग के उत्तर (+1) के अलावा, अधिक उन्नत अनुकूलन एल्गोरिथ्म का उपयोग करना बेहतर है, जैसे कि लेवेनबर्ग-मार्क्वार्ड (छोटे-मध्यम आकार के नेटवर्क) या स्केल किए गए संयुग्म ढाल ढाल (मध्यम-बड़े) नेटवर्क), क्योंकि ये बहुत तेज़ होंगे, और सीखने की दर निर्धारित करने की कोई आवश्यकता नहीं है (दोनों एल्गोरिदम अनिवार्य रूप से वक्रता के साथ-साथ ढाल का उपयोग करके सीखने की दर को अनुकूलित करते हैं)। किसी भी सभ्य तंत्रिका नेटवर्क पैकेज या लाइब्रेरी में इन विधियों में से एक का कार्यान्वयन होगा, कोई भी पैकेज जो संभवतः अप्रचलित नहीं है। मैं MATLAB के लिए NETLAB परिवाद का उपयोग करता हूं, जो किट का एक बड़ा टुकड़ा है।

— डिक्रान मार्सुपियल
स्रोत

Rprop आधारित अनुकूलन अल्गोस के बारे में क्या? वे कैसे ढेर हो जाते हैं?

— शक्ति

मुझे लगता है कि अधिकांश लोग आरएमएसप्रॉप + गति जैसे कि आरएमएसप्रॉप, एडग्रैड, डब्ल्यूडब्ल्यूडी + नेस्टरोविकम के वेरिएंट का उपयोग कर रहे हैं। Cs231 वर्ग देखें ।

— फुकु

खैर, निश्चित रूप से यह आपके आवेदन पर निर्भर करता है। लेकिन बड़े डेटासेट / नेटवर्कों के लिए जो अभी थोड़े ट्रेंडी हैं, मुझे लगता है कि लोग उन एल्गोरिदमों को पा रहे हैं जिनका मैंने बेहतर तरीके से उल्लेख किया है।

— फेसु डिक

@DikranMarsupial यह हो सकता है क्योंकि आजकल (आपके उत्तर के लगभग पांच साल बाद) लोग एडम के बजाय इसका इस्तेमाल करते हैं?

— कंप्यूटर

वास्तव में यह उत्तर बहुत पुराना है। ये एल्गोरिदम आजकल के मॉडल और डेटासेट के पैमाने के साथ व्यावहारिक नहीं हैं, और सबसे व्यापक रूप से उपयोग किए जाने वाले पैकेज, जो निश्चित रूप से अप्रचलित नहीं हैं, इन एल्गोरिदम की कमी है।

— लुकासब

मैं सरल शब्द:

Learning_rate: यह नियंत्रित करता है कि तंत्रिका नेटवर्क मॉडल कितनी जल्दी या धीरे-धीरे एक समस्या सीखता है।

रेफरी: https://machinelearningmastery.com/learning-rate-for-deep-learning-neural-networks/

wight_decay: यह एक नियमितीकरण तकनीक है जिसका उपयोग ओवर-फिटिंग से बचने के लिए किया जाता है।

रेफरी: https://metacademy.org/graphs/concepts/weight_decay_neural_networks

— केतन विश्वकर्मा
स्रोत