तंत्रिका नेटवर्क: वजन में परिवर्तन की गति और वजन में गिरावट


41

मोमेंटम का उपयोग लगातार पुनरावृत्तियों पर वज़न में होने वाले उतार-चढ़ाव को कम करने के लिए किया जाता है:α

Δωi(t+1)=ηEwi+αΔωi(t),
जहां त्रुटि फ़ंक्शन है, - वेट के वेक्टर, - सीखने की दर।E(w)wη

वजन में कमी वजन में परिवर्तन को दंडित करता है:λ

Δωi(t+1)=ηEwiληωi

सवाल यह है कि अगर बैक-प्रचार के दौरान दोनों तरकीबों को जोड़ना समझ में आता है और इसका क्या असर होगा?

Δωi(t+1)=ηEwi+αΔωi(t)ληωi

1
क्या आपके कहने का मतलब (i (t + 1) = --i - ω ∂E / ∂wi + α )i (t) है, बजाय Δωi (t + 1) = ωi - η∂E / ∂wi + αΔωi (t)?
hakunamatata

जवाबों:


48

हां, दोनों तरकीबों का उपयोग करना बहुत आम है। वे विभिन्न समस्याओं को हल करते हैं और एक साथ अच्छी तरह से काम कर सकते हैं।

इसके बारे में सोचने का एक तरीका यह है कि वज़न घटने से उस फ़ंक्शन में बदलाव होता है जिसे अनुकूलित किया जा रहा है , जबकि गति आपके द्वारा इष्टतम पर ले जाने वाले मार्ग को बदल देती है

वजन घटने, अपने गुणांक को शून्य की ओर सिकोड़कर, यह सुनिश्चित करता है कि आपको छोटे परिमाण वाले स्थानीय इष्टतम मिलें। यह आमतौर पर ओवरफिटिंग से बचने के लिए महत्वपूर्ण है (हालांकि वजन पर अन्य प्रकार की बाधाएं भी काम कर सकती हैं)। एक साइड बेनिफिट के रूप में, यह उद्देश्य फ़ंक्शन को अधिक उत्तल बनाकर, मॉडल को अनुकूलित करना आसान बना सकता है।

एक बार जब आप एक उद्देश्य कार्य करते हैं, तो आपको यह तय करना होगा कि इस पर कैसे घूमें। ग्रेडिएंट पर स्टेपेस्ट डिसेंट सबसे सरल दृष्टिकोण है, लेकिन आप सही कह रहे हैं कि उतार-चढ़ाव एक बड़ी समस्या हो सकती है। गति जोड़ने से उस समस्या को हल करने में मदद मिलती है। यदि आप बैच अपडेट के साथ काम कर रहे हैं (जो आमतौर पर तंत्रिका नेटवर्क के साथ एक बुरा विचार है) न्यूटन-प्रकार के कदम एक और विकल्प हैं। नए "हॉट" दृष्टिकोण नेस्टरोव के त्वरित ढाल और तथाकथित "हेसियन-फ्री" अनुकूलन पर आधारित हैं।

लेकिन इनमें से कौन से अपडेट नियम आप उपयोग करते हैं (गति, न्यूटन, आदि) की परवाह किए बिना , आप अभी भी उसी उद्देश्य फ़ंक्शन के साथ काम कर रहे हैं, जो आपकी त्रुटि फ़ंक्शन (जैसे चुकता त्रुटि) और अन्य बाधाओं (जैसे वजन क्षय) द्वारा निर्धारित किया जाता है । इनमें से कौन सा उपयोग करना है, यह तय करते समय मुख्य सवाल यह है कि आप कितनी जल्दी वजन का एक अच्छा सेट प्राप्त करेंगे।


'यह मॉडल को अनुकूलित करने के लिए आसान भी बना सकता है, उद्देश्य समारोह को और अधिक उत्तल बनाकर' - क्या आप कृपया समझा सकते हैं कि छोटे वजन कितना संभव बनाते हैं?
एलेक्स

यहां एक सरल उदाहरण है जो इस बिंदु को स्पष्ट करना चाहिए: यदि आपका मूल उद्देश्य फ़ंक्शन , तो असीम रूप से कई स्थानीय मिनीमा हैं। आप जोड़ देते हैं तो उद्देश्य कार्य करने के लिए, और 0.2 के बारे में की तुलना में बड़ा है, पुराने स्थानीय अनुकूलता के सभी गायब हो जाएगा और तुम सिर्फ पास एक न्यूनतम 0. के साथ छोड़ दिया हो जाएगाsin(x)ax2a
डेविड जे हैरिस

अच्छा जवाब, धन्यवाद। एडम ऑप्टिमाइज़र के बारे में क्या? क्या यह बेहतर प्रदर्शन करता है कि वजन क्षय और गति का संयोजन?
ए। पीरो

एडम गति की तरह है, लेकिन वजन क्षय की तरह नहीं; यह प्रभावित करता है कि आप उद्देश्य फ़ंक्शन को कैसे नेविगेट करते हैं, लेकिन स्वयं उद्देश्य फ़ंक्शन नहीं।
डेविड जे। हैरिस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.