गहन शिक्षण पर इस ट्यूटोरियल के अनुसार , वजन घटाने (नियमितीकरण) को आमतौर पर पूर्वाग्रह शर्तों पर लागू नहीं किया जाता है b क्यों?
इसके पीछे क्या महत्व (अंतर्ज्ञान) है?
गहन शिक्षण पर इस ट्यूटोरियल के अनुसार , वजन घटाने (नियमितीकरण) को आमतौर पर पूर्वाग्रह शर्तों पर लागू नहीं किया जाता है b क्यों?
इसके पीछे क्या महत्व (अंतर्ज्ञान) है?
जवाबों:
ओवरफिटिंग में आमतौर पर मॉडल के आउटपुट के लिए इनपुट डेटा में छोटे बदलावों के प्रति संवेदनशील होने की आवश्यकता होती है (यानी लक्ष्य मानों को ठीक करने के लिए, आपको फिट किए गए फ़ंक्शन में बहुत अधिक वक्रता की आवश्यकता होती है)। पूर्वाग्रह पैरामीटर मॉडल की वक्रता में योगदान नहीं करते हैं, इसलिए आमतौर पर उन्हें नियमित करने में बहुत कम बिंदु होते हैं।
L2 (या L1) के पीछे प्रेरणा यह है कि भार को प्रतिबंधित करके, नेटवर्क को बाधित करके, आप ओवरफिट होने की संभावना कम हैं। यह पूर्वाग्रहों के भार को सीमित करने के लिए बहुत कम समझ में आता है क्योंकि पूर्वाग्रहों को ठीक किया जाता है (उदाहरण b = 1) इस प्रकार न्यूरॉन इंटरसेप्ट्स की तरह काम करते हैं, जिससे समझ में आता है कि उन्हें उच्च लचीलापन दिया जाना चाहिए।
मैं यह जोड़ना चाहूंगा कि पूर्वाग्रह शब्द को अक्सर 1
इसके बजाय एक माध्य के साथ आरंभ किया जाता है 0
, इसलिए हम इसे नियमित मूल्य से बहुत अधिक दूर न करने के तरीके से नियमित करना चाह सकते हैं 1
जैसे कि करने के 1/2*(bias-1)^2
बजाय 1/2*(bias)^2
।
हो सकता है कि -1
पक्षपात के माध्यम से घटाव द्वारा भाग को बदलने में मदद मिल सकती है, शायद प्रति-परत का मतलब या समग्र रूप से। फिर भी यह सिर्फ एक परिकल्पना है जो मैं (मतलब घटाव के बारे में) कर रहा हूं।
यह सब सक्रियण फ़ंक्शन पर भी निर्भर करता है। उदाहरण: यदि गैसों को उच्च स्थिर ऑफसेट के लिए नियमित किया जाता है, तो गायब होने वाले ग्रेडिएंट्स के लिए सिग्मोइड यहां खराब हो सकते हैं।
ट्यूटोरियल का कहना है कि "पूर्वाग्रह इकाइयों में वजन क्षय को लागू करना आमतौर पर अंतिम नेटवर्क के लिए केवल एक छोटा अंतर होता है", इसलिए यदि यह मदद नहीं करता है, तो आप इसे एक हाइपरपरमीटर को खत्म करने के लिए कर सकते हैं। यदि आपको लगता है कि ऑफसेट को नियमित करने से आपके सेटअप में मदद मिलेगी, तो इसे क्रॉस-मान्य करें; कोशिश करने में कोई बुराई नहीं है।