तंत्रिका शुद्ध वजन क्षय और सीखने की दर के बीच अंतर


जवाबों:


161

सीखने की दर एक पैरामीटर है जो निर्धारित करता है कि एक अद्यतन कदम कितना वजन के वर्तमान मूल्य को प्रभावित करता है। जबकि वेट अपडेट नियम में वज़न क्षय एक अतिरिक्त शब्द है, जिसके कारण कोई अन्य अपडेट शेड्यूल न होने पर वज़न तेज़ी से क्षय हो जाता है।

तो चलिए बताते हैं कि हमारे पास लागत या त्रुटि फ़ंक्शन जिसे हम कम से कम करना चाहते हैं। ढाल वंश हमें बताता है वजन संशोधित करने के लिए डब्ल्यू में सबसे ज्यादा वंश की दिशा में : डब्ल्यू मैंडब्ल्यू मैं - η E(w)wE

wiwiηEwi,
ηwi

E~(w)=E(w)+λ2w2λE

wiwiηEwiηλwi.
ηλwi

2
उपयोगी स्पष्टीकरण के लिए धन्यवाद। एक प्रश्न: "एननेट" आर पैकेज में तंत्रिका नेटवर्क के प्रशिक्षण में उपयोग किया जाने वाला एक पैरामीटर है जिसे "क्षय" कहा जाता है। क्या आपको पता है कि क्षय आपके लैम्ब्डा या आपके एटा * लैम्ब्डा से मेल खाता है?
एंड्रिया इयानि

3
मैं यह भी कहना चाहूंगा कि वजन घटाना L2 के नियमितीकरण की ही तरह है जो उन लोगों के लिए है जो बाद के परिचित हैं।
सर्गेई

2
@ सर्गी कृपया, इस गलत सूचना को फैलाना बंद करें! यह केवल वेनिला SGD के विशेष मामले में सच है। एडम पेपर के लिए फिक्सिंग वजन क्षय देखें ।
लुकासब

स्पष्ट करने के लिए: लेखन के समय, एडम के लिए PyTorch डॉक्स शब्द "वज़न क्षय" ( पितृसत्तात्मक रूप से "L2 दंड") का उपयोग करता है, यह संदर्भित करने के लिए कि मुझे क्या लगता है कि लेखक L2 विनियमन कहते हैं। अगर मैं सही ढंग से समझूं, तो यह उत्तर बगैर किसी गति के डब्ल्यूडब्ल्यूडी को संदर्भित करता है, जहां दोनों समान हैं।
डायलन एफ

14

तंत्रिका नेटवर्क के कई व्यावहारिक अनुप्रयोग के लिए @ मृग के उत्तर (+1) के अलावा, अधिक उन्नत अनुकूलन एल्गोरिथ्म का उपयोग करना बेहतर है, जैसे कि लेवेनबर्ग-मार्क्वार्ड (छोटे-मध्यम आकार के नेटवर्क) या स्केल किए गए संयुग्म ढाल ढाल (मध्यम-बड़े) नेटवर्क), क्योंकि ये बहुत तेज़ होंगे, और सीखने की दर निर्धारित करने की कोई आवश्यकता नहीं है (दोनों एल्गोरिदम अनिवार्य रूप से वक्रता के साथ-साथ ढाल का उपयोग करके सीखने की दर को अनुकूलित करते हैं)। किसी भी सभ्य तंत्रिका नेटवर्क पैकेज या लाइब्रेरी में इन विधियों में से एक का कार्यान्वयन होगा, कोई भी पैकेज जो संभवतः अप्रचलित नहीं है। मैं MATLAB के लिए NETLAB परिवाद का उपयोग करता हूं, जो किट का एक बड़ा टुकड़ा है।


Rprop आधारित अनुकूलन अल्गोस के बारे में क्या? वे कैसे ढेर हो जाते हैं?
शक्ति

4
मुझे लगता है कि अधिकांश लोग आरएमएसप्रॉप + गति जैसे कि आरएमएसप्रॉप, एडग्रैड, डब्ल्यूडब्ल्यूडी + नेस्टरोविकम के वेरिएंट का उपयोग कर रहे हैं। Cs231 वर्ग देखें ।
फुकु

1
खैर, निश्चित रूप से यह आपके आवेदन पर निर्भर करता है। लेकिन बड़े डेटासेट / नेटवर्कों के लिए जो अभी थोड़े ट्रेंडी हैं, मुझे लगता है कि लोग उन एल्गोरिदमों को पा रहे हैं जिनका मैंने बेहतर तरीके से उल्लेख किया है।
फेसु डिक

6
@DikranMarsupial यह हो सकता है क्योंकि आजकल (आपके उत्तर के लगभग पांच साल बाद) लोग एडम के बजाय इसका इस्तेमाल करते हैं?
कंप्यूटर

2
वास्तव में यह उत्तर बहुत पुराना है। ये एल्गोरिदम आजकल के मॉडल और डेटासेट के पैमाने के साथ व्यावहारिक नहीं हैं, और सबसे व्यापक रूप से उपयोग किए जाने वाले पैकेज, जो निश्चित रूप से अप्रचलित नहीं हैं, इन एल्गोरिदम की कमी है।
लुकासब

0

मैं सरल शब्द:

Learning_rate: यह नियंत्रित करता है कि तंत्रिका नेटवर्क मॉडल कितनी जल्दी या धीरे-धीरे एक समस्या सीखता है।

रेफरी: https://machinelearningmastery.com/learning-rate-for-deep-learning-neural-networks/

wight_decay: यह एक नियमितीकरण तकनीक है जिसका उपयोग ओवर-फिटिंग से बचने के लिए किया जाता है।

रेफरी: https://metacademy.org/graphs/concepts/weight_decay_neural_networks

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.