बार-बार देखने वाला 👀
एक अर्थ में, हम दोनों नियमितताओं को "वजन कम करने" के रूप में सोच सकते हैं ; L2 वज़न के यूक्लिडियन मान को कम करता है, जबकि L1 मैनहट्टन के मान को कम करता है। इस विचारधारा का अनुसरण करते हुए, हम यह तर्क दे सकते हैं कि L1 और L2 के उपसंहार क्रमशः गोलाकार और हीरे के आकार के होते हैं, इसलिए L1 में विरल समाधान पैदा होने की अधिक संभावना है, जैसा कि बिशप के पैटर्न मान्यता और मशीन लर्निंग में सचित्र है :
बायसियन दृश्य 👀
हालांकि, यह समझने के लिए कि पुजारी रैखिक मॉडल से कैसे संबंधित हैं , हमें साधारण रेखीय प्रतिगमन की बायेसियन व्याख्या को समझने की आवश्यकता है । कैथरीन बेली का ब्लॉगपोस्ट इसके लिए एक उत्कृष्ट रीड है। संक्षेप में, हम अपने रैखिक मॉडल में सामान्य रूप से वितरित आईआईडी त्रुटियों को मानते हैं
y = θ⊤एक्स + ϵ
एनyi,i=1,2,…,Nϵk∼N(0,σ)
yp(y|X,θ;ϵ)=N(θ⊤X,σ)
जैसा कि यह पता चला है ... अधिकतम संभावना अनुमानक त्रुटि के लिए सामान्य धारणा के तहत अनुमानित और वास्तविक आउटपुट मानों के बीच चुकता त्रुटि को कम करने के समान है।
θ^MLE=argmaxθlogP(y|θ)=argminθ∑i=1n(yi−θ⊤xi)2
वजन पर पुजारियों के रूप में नियमितीकरण
यदि हम रेखीय प्रतिगमन के भार से पहले एक गैर-वर्दी को रखने के लिए थे, तो अधिकतम पोस्टीरियर संभावना (एमएपी) अनुमान होगा:
θ^MAP=argmaxθlogP(y|θ)+logP(θ)
के रूप में प्राप्त किया ब्रायन केंग के ब्लॉग पोस्ट , अगर एक लाप्लास वितरण यह बराबर है एल 1 नियमितीकरण के लिए पर है ।P(θ)θ
इसी तरह, यदि एक गौसियन डिस्ट्रीब्यूशन है, तो यह पर L2 नियमितीकरण के बराबर है ।P(θ)θ
अब हमारे पास एक और विचार है कि भार पर पूर्व में लाप्लास लगाने से स्पार्सिटी को प्रेरित करने की अधिक संभावना क्यों है: क्योंकि लाप्लास वितरण शून्य के आसपास अधिक केंद्रित है , हमारे वजन शून्य होने की अधिक संभावना है।