तंत्रिका नेटवर्क के संदर्भ में, सीखने की दर और वजन घटने में क्या अंतर है?
तंत्रिका नेटवर्क के संदर्भ में, सीखने की दर और वजन घटने में क्या अंतर है?
जवाबों:
सीखने की दर एक पैरामीटर है जो निर्धारित करता है कि एक अद्यतन कदम कितना वजन के वर्तमान मूल्य को प्रभावित करता है। जबकि वेट अपडेट नियम में वज़न क्षय एक अतिरिक्त शब्द है, जिसके कारण कोई अन्य अपडेट शेड्यूल न होने पर वज़न तेज़ी से क्षय हो जाता है।
तो चलिए बताते हैं कि हमारे पास लागत या त्रुटि फ़ंक्शन जिसे हम कम से कम करना चाहते हैं। ढाल वंश हमें बताता है वजन संशोधित करने के लिए डब्ल्यू में सबसे ज्यादा वंश की दिशा में ई : डब्ल्यू मैं ← डब्ल्यू मैं - η ∂ ई
तंत्रिका नेटवर्क के कई व्यावहारिक अनुप्रयोग के लिए @ मृग के उत्तर (+1) के अलावा, अधिक उन्नत अनुकूलन एल्गोरिथ्म का उपयोग करना बेहतर है, जैसे कि लेवेनबर्ग-मार्क्वार्ड (छोटे-मध्यम आकार के नेटवर्क) या स्केल किए गए संयुग्म ढाल ढाल (मध्यम-बड़े) नेटवर्क), क्योंकि ये बहुत तेज़ होंगे, और सीखने की दर निर्धारित करने की कोई आवश्यकता नहीं है (दोनों एल्गोरिदम अनिवार्य रूप से वक्रता के साथ-साथ ढाल का उपयोग करके सीखने की दर को अनुकूलित करते हैं)। किसी भी सभ्य तंत्रिका नेटवर्क पैकेज या लाइब्रेरी में इन विधियों में से एक का कार्यान्वयन होगा, कोई भी पैकेज जो संभवतः अप्रचलित नहीं है। मैं MATLAB के लिए NETLAB परिवाद का उपयोग करता हूं, जो किट का एक बड़ा टुकड़ा है।
मैं सरल शब्द:
Learning_rate: यह नियंत्रित करता है कि तंत्रिका नेटवर्क मॉडल कितनी जल्दी या धीरे-धीरे एक समस्या सीखता है।
रेफरी: https://machinelearningmastery.com/learning-rate-for-deep-learning-neural-networks/
wight_decay: यह एक नियमितीकरण तकनीक है जिसका उपयोग ओवर-फिटिंग से बचने के लिए किया जाता है।
रेफरी: https://metacademy.org/graphs/concepts/weight_decay_neural_networks