नियमितीकरण में छोटे वज़न का सरल मॉडल क्यों होता है?


27

मैंने एंड्रयू एनजी के मशीन लर्निंग कोर्स को एक साल पहले पूरा कर लिया है, और अब मैं अपने हाई स्कूल मैथ की खोज को लॉजिस्टिक रिग्रेशन और तकनीकों के प्रदर्शन पर अनुकूलित करने के लिए लिख रहा हूं। इन तकनीकों में से एक, निश्चित रूप से, नियमितीकरण है।

नियमितीकरण का उद्देश्य मॉडल सादगी के लक्ष्य को शामिल करने के लिए लागत समारोह का विस्तार करके ओवरफिटिंग को रोकना है। हम कुछ नियमितीकरण पैरामाटर द्वारा गुणा किए गए प्रत्येक भार को लागत फ़ंक्शन में जोड़कर वजन के आकार को दंडित करके इसे प्राप्त कर सकते हैं ।

अब, मशीन लर्निंग एल्गोरिदम का उद्देश्य प्रशिक्षण सेट पर सटीकता को बनाए रखते हुए वज़न के आकार को कम करना होगा। विचार यह है कि हम बीच में कुछ बिंदु पर पहुंचेंगे जहां हम एक मॉडल का उत्पादन कर सकते हैं जो डेटा पर सामान्यीकृत करता है और कम जटिल होने के कारण सभी स्टोचस्टिक शोर में फिट होने की कोशिश नहीं करता है।

मेरा भ्रम यह है कि हम वज़न के आकार को दंडित क्यों करते हैं? बड़े वजन अधिक जटिल मॉडल क्यों बनाते हैं, और छोटे वजन सरल / चिकनी मॉडल बनाते हैं? एंड्रयू एनजी ने अपने व्याख्यान में दावा किया है कि स्पष्टीकरण एक कठिन सिखाने के लिए है, लेकिन मुझे लगता है कि मैं अब इस स्पष्टीकरण की तलाश कर रहा हूं।

प्रो। एनजी ने वास्तव में एक उदाहरण दिया कि नई लागत फ़ंक्शन कैसे सुविधाओं के भार का कारण बन सकती है (अर्थात। x ^ 3 और x ^ 4) शून्य की ओर बढ़ने के लिए ताकि मॉडल की डिग्री कम हो, लेकिन यह एक पूर्ण निर्माण नहीं करता है स्पष्टीकरण।

मेरा अंतर्ज्ञान यह है कि छोटे वज़न, छोटे प्रतिपादकों वाले लोगों की तुलना में अधिक घातांक वाले फीचर्स पर अधिक "स्वीकार्य" होंगे (क्योंकि छोटे वज़न वाली विशेषताएं फ़ंक्शन के आधार की तरह हैं)। छोटे वजन उच्च आदेश के साथ सुविधाओं के लिए छोटे "योगदान" का मतलब है। लेकिन यह अंतर्ज्ञान बहुत ठोस नहीं है।


2
यह एक प्रश्न की तरह लगता है "तो मेरी दादी इसे समझेगी" उत्तर की आवश्यकता है।
EngrStudent -

2
@EngrStudent क्योंकि यह ठीक है कि मुझे अपने हाई स्कूल के गणित शिक्षक और हाई स्कूल गणित के परीक्षार्थियों को पढ़ने के लिए अपने गणित IA में इसे कैसे प्रस्तुत करना चाहिए।
MCKapur

जवाबों:


4

यदि आप नियमितीकरण का उपयोग करते हैं, तो आप न केवल इन-सैंपल त्रुटि को कम कर रहे हैं, बल्कि ।हेयूटीहेएसमीटरपीएलआरआरआरमैंnएसमीटरपीएलआरआरआर+एमएलसीमीटरपीएलएक्समैंटीyपीnएलटीy

अधिक सटीक रूप से, लिए एक अल्पप्राणिक , जहां कुछ पैरामीटर है, आमतौर पर , आपके डेटासेट में उदाहरणों की संख्या है, और कुछ दंड है जो भार , पर निर्भर है । इसे संवर्धित त्रुटि के रूप में जाना जाता है । अब, आप केवल ऊपर दिए गए फ़ंक्शन को कम कर सकते हैं यदि वजन कम है।एचλλ(0,1)मीटरΩडब्ल्यूΩ=डब्ल्यूटीडब्ल्यूजम्मूयूजी((एक्स),y,λ,Ω)=जम्मू((एक्स),y)+λ2मीटरΩएचλλ(0,1)मीटरΩwΩ=wटीw

यहाँ खिलौने के साथ कुछ आर कोड है

w <- c(0.1,0.2,0.3)
out <- t(w) %*% w
print(out)

इसलिए, संपूर्ण परिकल्पना स्पेस को दंडित करने के बजाय , हम प्रत्येक परिकल्पना व्यक्तिगत रूप से दंडित करते हैं । हम कभी-कभी हाइपोथीसिस को इसके वजन वेक्टर द्वारा संदर्भित करते हैं ।एच एच डब्ल्यूएचw

छोटे वज़न कम मॉडल जटिलता के साथ क्यों चलते हैं, इसके लिए निम्नलिखित परिकल्पना पर ध्यान दें: । कुल मिलाकर हमें तीन सक्रिय वजन पैरामीटर । अब, को बहुत छोटे मान पर सेट करें , । यह मॉडल की जटिलता को कम करता है: । तीन सक्रिय वजन मापदंडों के बजाय हमें केवल दो शेष मिले।w 1 , , w 3 w 3 w 3 = 0 h 1 ( x ) = x 1 × w 1 + x 2 × w 1(एक्स)=एक्स1×w1+एक्स2×w2+एक्स3×w3w1,...,w3w3w3=0h1(x)=x1×w1+x2×w2


1
जाहिर है अगर कोई वजन शून्य तक कम हो जाता है तो मॉडल की जटिलता कम हो जाती है क्योंकि आप एक शब्द को हटा सकते हैं और इसलिए एक कम्प्यूटेशनल ऑपरेशन। लेकिन इससे यह समझाने में मदद नहीं मिलती है कि मॉडल की जटिलता क्यों कम हो जाती है क्योंकि वजन का मान शून्य के करीब पहुंच जाता है। क्या कोई समझा सकता है कि शब्दों के साथ सूत्र नहीं?
greg7gkb

6

मुझे यकीन नहीं है कि मैं वास्तव में जानता हूं कि मैं किस बारे में बात कर रहा हूं, लेकिन मैं इसे एक शॉट दूंगा। यह इतना छोटा वजन नहीं है जो ओवरफिटिंग को रोकता है (मुझे लगता है), यह अधिक तथ्य है कि नियमित रूप से अधिक दृढ़ता से मॉडल स्थान को कम करता है। वास्तव में आप लगभग 10000000 को नियमित कर सकते हैं यदि आप अपने X मानों के L2 मान को घटाकर 10000000 का सदिश करना चाहते हैं। यह ओवरफिटिंग को भी कम करेगा (बेशक आपको ऐसा करने के पीछे कुछ औचित्य भी होना चाहिए (यानी शायद आपके वाई मान आपके एक्स मानों के योग से 10000000 गुना बड़े हैं, लेकिन कोई भी वास्तव में ऐसा नहीं करता है क्योंकि आप सिर्फ डेटा को फिर से खोल सकते हैं)।

पूर्वाग्रह और विचरण दोनों मॉडल जटिलता का एक कार्य है। यह वीसी सिद्धांत से संबंधित है इसलिए इसे देखें। संभव मॉडल का बड़ा स्थान (अर्थात आपके सभी पैरामीटर मूल रूप से ले सकते हैं) और अधिक संभावना है कि मॉडल ओवरफिट हो जाएगा। यदि आपका मॉडल एक सीधी रेखा होने से लेकर साइनिंग की तरह हर दिशा में घूमने के लिए सब कुछ कर सकता है जो ऊपर और नीचे भी जा सकता है, तो आपके डेटा में यादृच्छिक गड़बड़ी को चुनना और मॉडल की संभावना अधिक है जो कि परिणाम नहीं है अंतर्निहित संकेत लेकिन उस डेटा सेट में सिर्फ भाग्यशाली अवसर का परिणाम (यही कारण है कि अधिक डेटा प्राप्त करने से ओवरफिट करने में मदद मिलती है लेकिन अंडरफिटिंग नहीं)।

जब आप नियमित करते हैं, तो मूल रूप से आप मॉडल स्थान को कम कर रहे हैं। यह जरूरी नहीं कि चिकनी / चापलूसी कार्यों में उच्च पूर्वाग्रह और कम विचरण है। एक रेखीय मॉडल के बारे में सोचो जो एक साइन लहर के साथ खत्म हो गया है जो कि वास्तव में छोटे आयाम दोलनों के लिए प्रतिबंधित है जो मूल रूप से कुछ भी नहीं करता है (मूल रूप से एक फजी लाइन)। यह फ़ंक्शन एक अर्थ में सुपर विग्लीली है लेकिन केवल एक रैखिक प्रतिगमन की तुलना में थोड़ा अधिक ओवरफिट करता है। चिकनी / चापलूसी कार्यों के कारण उच्च पूर्वाग्रह और कम विचरण होता है, क्योंकि हम डेटा वैज्ञानिक के रूप में मानते हैं कि अगर हमारे पास नमूना स्थान कम है, तो हम रोड़ा के बजाय बहुत अधिक मॉडल बनाए रखेंगे, जो चिकनी और सरल हैं और मॉडल बाहर फेंकते हैं जो सभी जगह अस्पष्ट और दोलन कर रहे हैं। यह पहली बार wiggly मॉडल बाहर फेंकने के लिए समझ में आता है,

रिज प्रतिगमन की तरह नियमितीकरण, मॉडल स्थान को कम कर देता है क्योंकि यह शून्य (या किसी भी संख्या) से और अधिक दूर होना महंगा बनाता है। इस प्रकार जब मॉडल को आपके डेटा में एक छोटे से गड़बड़ी को ध्यान में रखने के विकल्प के साथ सामना किया जाता है, तो यह अधिक संभावना नहीं के पक्ष में गलत होगा, क्योंकि यह (आमतौर पर) आपके पैरामीटर मान को बढ़ाएगा। यदि वह गड़बड़ी यादृच्छिक मौका (यानी आपके एक x चर के कारण आपके y चरों के साथ थोड़ा सा यादृच्छिक संबंध है) तो मॉडल उस खाते को गैर-नियमित प्रतिगमन के रूप में नहीं लेगा क्योंकि गैर-नियमित प्रतिगमन के साथ कोई लागत जुड़ी नहीं है बीटा आकार में वृद्धि। हालांकि, अगर यह गड़बड़ी वास्तविक संकेत के कारण है, तो आपके नियमित प्रतिगमन की संभावना अधिक होगी क्योंकि यह उच्च पूर्वाग्रह है (और क्यों एक भिन्नता पूर्वाग्रह व्यापार है)।


आपके विचारपूर्ण उत्तर के लिए धन्यवाद! तो हाँ, चौथे अनुच्छेद में आप "इस प्रकार" जब मॉडल को आपके डेटा में एक छोटे से गड़बड़ी को ध्यान में रखने के विकल्प के साथ सामना करना पड़ता है, तो यह अधिक संभावना नहीं है कि नहीं की तरफ, क्योंकि वह (आम तौर पर) आपके पैरामीटर को बढ़ाएगा मूल्य। "। यह मैं विशिष्ट में पूछ रहा हूं कि ऐसा क्यों है? धन्यवाद!
MCKapur

एक दंड कारक जोड़कर आप यह कम संभावना बनाते हैं कि मॉडल में उच्चतर दांव होंगे, इसलिए आपका मॉडल स्थान छोटा है। याद रखने वाली दूसरी बात यह है कि यदि आपका मॉडल सभी शोर है, तो इसकी संभावना शून्य ढलान होगी क्योंकि कोई सहसंबंध नहीं है (यह एक ऐसी चीज थी जिसके बारे में मैंने तब नहीं सोचा था जब मैं अपने फाल्गुन / सपाट तर्क देता हूं लेकिन मुझे लगता है कि तर्क अभी बाकी है आम तौर पर सच)। इस प्रकार यदि कोई संबंध / संबंध है, तो इससे बीटा में वृद्धि होने की संभावना है। इस प्रकार नियमितीकरण इस तथ्य को दंडित करता है और प्रतिगमन को रोकने से रोकता है कि वे संकेत या शोर हो।
www3

@ w33 मैं समझता हूं। लेकिन बड़े बेटास के परिणामस्वरूप उच्च मॉडल स्थान क्यों होता है?
MCKapur

मुझे यकीन नहीं है कि आपको इसकी आवश्यकता है लेकिन मुझे लगा कि मैं जवाब दूंगा। यह कोई बड़ी बात नहीं है। उदाहरण के लिए आप Y या 1000 * Y के साथ एक प्रतिगमन कर सकते हैं, प्रत्येक में एक ही जटिलता होगी लेकिन दूसरे मामले में बेटास 1000 उच्चतर होगा। विशिष्ट नियमितीकरण कुछ बीटा संयोजनों को और अधिक कठिन बना देता है, जैसे एक गुणांक 1000 और दूसरा -1000, और अन्य जो सभी 0 की तरह चापलूसी / सरल हैं। इसका मतलब यह है कि यदि आप मॉडल में डेटा से कुछ शोर quirks है, तो नियमित मॉडल इसे लेने की संभावना कम है।
18

जारी रखने के लिए, मॉडल सभी शोर quirks को नजरअंदाज नहीं करेगा, यह केवल quirks की अनदेखी करेगा जो betas के पूर्ण मूल्यों को बढ़ाता है। इसका मतलब यह है कि बेटों के मूल्यों को कम करने वाले quirks पर अधिक जोर दिया जाएगा। यह ठीक है, क्योंकि वहाँ बहुत अधिक wiggly लाइनें हैं जो आप सीधी रेखाओं से आकर्षित कर सकते हैं (यानी एक द्विघात समीकरण को रैखिक या स्थिर समीकरण से तुलना करते हैं)। इस प्रकार यदि शोर-शराबा होते हैं जो डेटा को प्रभावित करते हैं, तो वे एक चापलूसी / तनाव वाले मॉडल की तुलना में एक मॉडल को अधिक विगली (और इसलिए अधिक जटिल मॉडल) फिट करने की अधिक संभावना रखते हैं।
193 पर www3

3

कहानी:
मेरी दादी चलती है, लेकिन चढ़ाई नहीं करती। कुछ दादी करती हैं। एक दादी किलिमंजारो पर चढ़ने के लिए प्रसिद्ध थीं ।

वह सुप्त ज्वालामुखी बड़ा है। यह अपने बेस से 16,000 फीट ऊपर है। (मेरी शाही इकाइयों से घृणा मत करो।) इसके शीर्ष पर ग्लेशियर भी हैं, कभी-कभी।

यदि आप एक वर्ष पर चढ़ते हैं जहां कोई ग्लेशियर नहीं है, और आप शीर्ष पर पहुंचते हैं, तो क्या यह वही शीर्ष है जैसे कि ग्लेशियर था? ऊंचाई अलग है। आपको जो रास्ता अपनाना है वह अलग है। क्या होगा अगर आप ग्लेशियर की मोटाई अधिक होने पर शीर्ष पर जाते हैं? क्या वह इसे एक उपलब्धि के रूप में अधिक बनाता है? लगभग 35,000 लोग हर साल इसे चढ़ने का प्रयास करते हैं , लेकिन लगभग 16,000 ही सफल होते हैं।

आवेदन:
इसलिए मैं अपनी दादी को वजन (उर्फ कम से कम मॉडल जटिलता) के नियंत्रण की व्याख्या करूंगा, इस प्रकार है:

दादी, आपका मस्तिष्क एक अद्भुत विचारक है कि आप इसे जानते हैं या नहीं। अगर मैं आपसे पूछूं कि 16,000 में से कितने लोग सोचते हैं कि वे वास्तव में शीर्ष पर पहुंच गए थे, तो आप कहेंगे "वे सभी"।

अगर मैं सभी 30,000 पर्वतारोहियों के जूते में सेंसर लगाता हूं, और समुद्र तल से ऊँचाई नापता हूं, तो उनमें से कुछ लोग दूसरों की तरह ऊँचे नहीं उठते और न ही योग्य हो सकते हैं। जब मैं ऐसा करता हूं कि मैं एक निरंतर मॉडल पर जा रहा हूं - मैं कह रहा हूं कि यदि ऊंचाई मापा अधिकतम ऊंचाई के कुछ प्रतिशत के बराबर नहीं है, तो यह शीर्ष नहीं है। कुछ लोग शीर्ष पर कूदते हैं। कुछ लोग बस लाइन पार करके बैठ जाते हैं।

मैं सेंसर में अक्षांश और देशांतर जोड़ सकता था, और कुछ उच्च क्रम समीकरणों को फिट कर सकता था और शायद मैं एक बेहतर फिट हो सकता था, और इसमें अधिक लोग हो सकते हैं, शायद कुल लोगों का 45% भी जो इसे प्रयास करते हैं।

तो मान लें कि अगले साल एक "बड़ा ग्लेशियर" वर्ष या "कोई ग्लेशियर" वर्ष नहीं है क्योंकि कुछ ज्वालामुखी वास्तव में पृथ्वी के अल्बेडो को बदल देते हैं । यदि मैं इस वर्ष से अपने जटिल और सटीक मॉडल को लेता हूं और इसे उन लोगों पर लागू करता हूं जो अगले साल चढ़ते हैं तो मॉडल के अजीब परिणाम होने वाले हैं। शायद हर कोई "पास" करेगा या पास होने के लिए बहुत अधिक होगा। शायद कोई भी पास नहीं होगा, और यह सोचेगा कि वास्तव में किसी ने चढ़ाई पूरी नहीं की है। खासकर जब मॉडल जटिल होता है तो यह अच्छी तरह से सामान्य नहीं होगा। यह इस वर्ष के "प्रशिक्षण" डेटा में बिल्कुल फिट हो सकता है, लेकिन जब नया डेटा आता है तो यह खराब व्यवहार करता है।

चर्चा:
जब आप मॉडल की जटिलता को सीमित करते हैं, तो आप आमतौर पर ओवर-फिटिंग के बिना बेहतर सामान्यीकरण कर सकते हैं। सरल मॉडल का उपयोग करना, जो वास्तविक दुनिया की भिन्नता को समायोजित करने के लिए अधिक निर्मित होते हैं, बेहतर परिणाम देने के लिए जाते हैं, बाकी सभी समान हैं।

अब आपके पास एक निश्चित नेटवर्क टोपोलॉजी है, इसलिए आप कह रहे हैं "मेरा पैरामीटर गिनती तय है" - मैं मॉडल जटिलता में भिन्नता नहीं रख सकता। बकवास। वजन में एन्ट्रापी को मापें। जब एन्ट्रापी अधिक होती है तो इसका मतलब है कि कुछ गुणांक दूसरों की तुलना में काफी अधिक "सूचनात्मकता" रखते हैं। यदि आपके पास बहुत कम एन्ट्रॉपी है, तो इसका मतलब है कि सामान्य तौर पर गुणांक "सूचनात्मकता" के समान स्तरों को ले जाता है। जरूरी नहीं कि अनौपचारिकता अच्छी चीज हो। लोकतंत्र में आप चाहते हैं कि सभी लोग समान हों, और जॉर्ज ऑरवेल जैसी चीजें "दूसरों की तुलना में अधिक समान" प्रणाली की विफलताओं का एक उपाय है। यदि आपके पास इसके लिए एक बड़ा कारण नहीं है, तो आप चाहते हैं कि वजन एक दूसरे के समान हो।

एक व्यक्तिगत टिप्पणी पर: वूडू या हेयूरिस्टिक्स का उपयोग करने के बजाय, मैं "सूचना मानदंड" जैसी चीजों को प्राथमिकता देता हूं क्योंकि वे मुझे विश्वसनीय और सुसंगत परिणाम प्राप्त करने की अनुमति देते हैं। AIC , AICc और BIC कुछ सामान्य और उपयोगी शुरुआती बिंदु हैं। समाधान की स्थिरता, या सूचना मानदंड परिणामों की सीमा निर्धारित करने के लिए विश्लेषण को दोहराना एक सामान्य दृष्टिकोण है। एक तौल में एंट्रोपी पर छत डालकर देख सकता है।


2
दिलचस्प रूप से अलग। पेडेंट कॉर्नर: आपने "ऑर्सन वेल्स" लिखा। वर्तनी वेल्स है। मुझे संदेह है कि आप जॉर्ज ऑरवेल ( पशु फार्म ) के साथ थे।
निक कॉक्स

@ नाइकॉक्स - मैं बहुत बीमार हो गया हूं। मेरा दिमाग काम नहीं कर रहा है और मैं भी कामना करता हूं। ओरवेल था।
EngrStudent -

मैं यह समझना चाहता हूं कि मॉडल जटिलता एक निश्चित संख्या में मापदंडों (आपके दूसरे-से-अंतिम पैराग्राफ के विचार) के साथ भिन्न क्यों हो सकती है, और मुझे "पैरामीटर एन्ट्रापी" या "ओल्स पैरामीटर एन्ट्रॉपी" के लिए कोई भाग्य नहीं है। क्या आपने एन्ट्रॉपी की अवधारणा का उपयोग किया था क्योंकि यह सिर्फ अच्छी तरह से फिट बैठता है या यह मॉडल मापदंडों की संपत्ति का वास्तविक, व्यापक रूप से ज्ञात नाम है? अग्रिम में धन्यवाद।
अल्वारो फुएंटेस

1
@AlvaroFuentes - Entropy, इस अर्थ में, सूचना सिद्धांत से आता है। यहाँ विकिपीडिया लेख है। सूची के रूप में वज़न के बारे में सोचें, और आप संभावना घनत्व को अनुमानित करने के लिए कर्नेल विधि का उपयोग करके सभी भार की प्रणाली के एन्ट्रापी की गणना कर सकते हैं। आप न्यूरॉन्स के पार उच्च स्तर पर तुलना करने के लिए प्रति एन्ट्रॉपी के माध्यम से देख सकते हैं।
EngrStudent -

0

एक सरल अंतर्ज्ञान निम्नलिखित है। याद रखें कि नियमितीकरण के लिए सुविधाओं का लगभग मानकीकरण होना चाहिए। एक ही पैमाना।

मान लें कि न्यूनतमकरण फ़ंक्शन केवल चुकता त्रुटियों का योग है:

एसएस

एसएसएसएस

अब नियमितीकरण पर विचार करें, इस मामले में LASSO। कम से कम किए जाने वाले कार्य तो हैं

एसएस+λΣ|β|

एक अतिरिक्त सुविधा जोड़ने से अब अतिरिक्त जुर्माना लगता है: पूर्ण गुणांक का योग बड़ा हो जाता है! SSE में कटौती अतिरिक्त अतिरिक्त दंड से बचना चाहिए। बिना लागत के अतिरिक्त सुविधाओं को जोड़ना अब संभव नहीं है।

फ़ीचर मानकीकरण और पूर्ण गुणांक के योग को दंडित करने का संयोजन खोज स्थान को प्रतिबंधित करता है, जिससे कम ओवरफ़िटिंग होती है।

अब LASSO:

एसएस+λΣ|β|

गुणांक को शून्य तक ले जाता है, जबकि रिज प्रतिगमन:

एसएस+λΣβ2

गुणांक को आनुपातिक रूप से सिकोड़ने की कोशिश करता है। इसे दंडात्मक कार्य के प्रकार के साइड इफेक्ट के रूप में देखा जा सकता है। नीचे दी गई तस्वीर इससे मदद करती है:

यहाँ छवि विवरण दर्ज करें

व्यवहार में नियमित रूप से दंड समारोह, सियान क्षेत्र द्वारा ऊपर चित्र के अनुसार, मापदंडों के लिए एक 'बजट' देता है।

एसएस

चित्र https://onlinecourses.science.psu.edu/stat857/node/158 से लिया गया

सारांश: नियमितीकरण अतिरिक्त मापदंडों को जोड़ने पर दंडित करता है, और नियमितीकरण के प्रकार के आधार पर सभी गुणांक (रिज) को कम कर देगा, या अन्य गुणांक को बनाए रखने के लिए कई गुणांक निर्धारित करेगा, जहां तक ​​बजट अनुमति देता है (लासो)


1
आप सिर्फ लसो और रिज रिग्रेशन के बीच का अंतर बता रहे हैं लेकिन सवाल इस कारण से पूछ रहा है कि नियमितीकरण से जटिलता कम होती है।
सोबी

कृपया इस अनुभाग को पढ़ें: "अतिरिक्त सुविधा जोड़ने से अब अतिरिक्त जुर्माना लगता है: पूर्ण गुणांक का योग बहुत बड़ा हो जाता है! SSE में कमी अतिरिक्त अतिरिक्त दंड को समाप्त कर देना चाहिए। बिना लागत के अतिरिक्त सुविधाओं को जोड़ना संभव नहीं है।"
sprrnl

एल1λλएल2

सार यह है कि मापदंडों को जोड़ने के लिए दंड का प्रकार अलग-अलग तरीकों से मापदंडों को प्रभावित करने वाला है। व्यवहार में आपको ऐसे मापदंडों के साथ एक मॉडल मिलता है जो प्रशिक्षण डेटा को कम सटीक बैठता है: जो लक्ष्य की तरह था।
spdrnl

0

इनपुट में गुआसियन शोर को जोड़कर, सीखने का मॉडल एल 2-पेनल्टी रेगुलराइज़र की तरह व्यवहार करेगा।

क्यों देखें, एक रैखिक प्रतिगमन पर विचार करें जहां iid शोर को सुविधाओं में जोड़ा जाता है। नुकसान अब वजन मानक के त्रुटियों + योगदान का एक समारोह होगा।

व्युत्पत्ति देखें: https://www.youtube.com/watch?v=qw4vtBYhLp0


0

मुझे याद है कि एक विश्वविद्यालय की कक्षा में मेरे शिक्षक ने कहा था कि बड़े मापदंडों को दंडित करने से ओवरफिटिंग को कम किया जा सकता है क्योंकि यह मॉडल को डेटा में विशिष्ट विशेषताओं पर बहुत अधिक भार डालने से रोकता है, जो मॉडल के सिर्फ कुछ विशिष्ट विशेषताओं को याद रखने और इसे संबंधित करने के बाद से ओवरफिटिंग का कारण बनता है। सामान्य नियमों को सीखने की कोशिश के बजाय लेबल।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.