लाप्लास पूर्व में विरल समाधान क्यों पैदा कर रहा है?


23

मैं नियमितीकरण पर साहित्य के माध्यम से देख रहा था, और अक्सर पैराग्राफ को देखता हूं जो गौसियन से पहले एल 2 विनियमन को जोड़ता है, और एल 1 शून्य पर केंद्रित लैप्लस के साथ।

मुझे पता है कि ये पुजारी कैसे दिखते हैं, लेकिन मुझे समझ में नहीं आता है, यह कैसे अनुवाद करता है, उदाहरण के लिए, रैखिक मॉडल में वजन। L1 में, अगर मैं सही तरीके से समझूं, तो हम विरल समाधानों की अपेक्षा करते हैं, अर्थात कुछ भार बिल्कुल शून्य तक धकेल दिए जाएंगे। और L2 में हमें छोटे वज़न मिलते हैं लेकिन शून्य वज़न नहीं।

लेकिन ऐसा क्यों होता है?

कृपया टिप्पणी करें कि क्या मुझे अधिक जानकारी प्रदान करने की आवश्यकता है या मेरी सोच का मार्ग स्पष्ट करें।



1
एक बहुत ही सरल सहज व्याख्या यह है कि L2 मानदंड का उपयोग करते समय दंड कम हो जाता है लेकिन L1 मानदंड का उपयोग करते समय नहीं। इसलिए यदि आप नुकसान के कार्य के मॉडल भाग को बराबर रख सकते हैं और आप ऐसा कर सकते हैं तो दो चर में से एक घटाकर बेहतर होगा कि L2 मामले में उच्च निरपेक्ष मान के साथ चर को कम किया जा सकता है लेकिन L1 मामले में नहीं।
परीक्षक

जवाबों:


21

माध्यिका (या L1 मानदंड) से पहले लाप्लास वितरण के संबंध को लाप्लास ने स्वयं पाया था, जिन्होंने पाया था कि इस तरह के पूर्व का उपयोग आप सामान्य वितरण के साथ औसत के बजाय औसतन का अनुमान लगाते हैं (देखें स्टिंगलर, 1986 या विकिपीडिया )। इसका मतलब यह है कि लैप्लस त्रुटियों के वितरण के साथ प्रतिगमन औसत दर्जे का अनुमान लगाता है (जैसे उदाहरण मात्रात्मक प्रतिगमन), जबकि सामान्य त्रुटियां ओएलएस अनुमान का संदर्भ देती हैं।

t

ऐसे पुजारियों का उपयोग करने से आपको कई शून्य-मूल्यवान गुणांक, कुछ मध्यम-आकार और कुछ बड़े-आकार (लंबी पूंछ) के साथ समाप्त होने का खतरा होता है, जबकि सामान्य से पहले आपको अधिक मध्यम-आकार के गुणांक मिलते हैं जो कि बिल्कुल शून्य नहीं होते हैं, लेकिन शून्य से भी दूर नहीं।

यहां छवि विवरण दर्ज करें

(छवि स्रोत तिब्शीरानी, ​​1996)


स्टिगलर, एसएम (1986)। सांख्यिकी का इतिहास: 1900 से पहले अनिश्चितता का मापन। कैम्ब्रिज, एमए: हार्वर्ड यूनिवर्सिटी प्रेस के बेलकनैप प्रेस।

टिबशिरानी, ​​आर। (1996)। कमंद के माध्यम से प्रतिगमन संकोचन और चयन। रॉयल स्टैटिस्टिकल सोसाइटी का जर्नल। सीरीज़ बी (मेथेडोलॉजिकल), 267-288।

जेलमैन, ए।, जक्यूलिन, ए।, पिटौ, जीएम, और सु, वाई.-एस। (2008)। लॉजिस्टिक और अन्य प्रतिगमन मॉडल के लिए एक कमजोर सूचनात्मक डिफ़ॉल्ट पूर्व वितरण। द एनल्स ऑफ एप्लाइड स्टैटिस्टिक्स, 2 (4), 1360-1383।

नॉर्टन, आरएम (1984)। डबल एक्सपोनेंशियल डिस्ट्रीब्यूशन: कैलकुलस का उपयोग करके अधिकतम संभावना अनुमानक का पता लगाएं। द अमेरिकन स्टेटिस्टिशियन, 38 (2): 135-136।


वाह, यह बहुत अच्छी व्याख्या है, और लिंक किए गए प्रश्न के लिए भी विशेष धन्यवाद जहां नियमितीकरण मानदंड सहज रूप से मोड, मीडियन और माध्य से जुड़े हैं, यह वास्तव में मेरे लिए बहुत कुछ स्पष्ट करता है!
दिमित्री स्मिरनोव

1
@ तैम, द कॉची डिस्ट्रीब्यूशन में हेवी टेल है फिर भी जीरो के लिए संभावना सामान्य वितरण से कम है। तो यह कैसे विरल समाधान प्रेरित करते हैं?
रॉय

5

बार-बार देखने वाला 👀

एक अर्थ में, हम दोनों नियमितताओं को "वजन कम करने" के रूप में सोच सकते हैं ; L2 वज़न के यूक्लिडियन मान को कम करता है, जबकि L1 मैनहट्टन के मान को कम करता है। इस विचारधारा का अनुसरण करते हुए, हम यह तर्क दे सकते हैं कि L1 और L2 के उपसंहार क्रमशः गोलाकार और हीरे के आकार के होते हैं, इसलिए L1 में विरल समाधान पैदा होने की अधिक संभावना है, जैसा कि बिशप के पैटर्न मान्यता और मशीन लर्निंग में सचित्र है :

बिशप की * पैटर्न मान्यता और मशीन लर्निंग *

बायसियन दृश्य 👀

हालांकि, यह समझने के लिए कि पुजारी रैखिक मॉडल से कैसे संबंधित हैं , हमें साधारण रेखीय प्रतिगमन की बायेसियन व्याख्या को समझने की आवश्यकता है । कैथरीन बेली का ब्लॉगपोस्ट इसके लिए एक उत्कृष्ट रीड है। संक्षेप में, हम अपने रैखिक मॉडल में सामान्य रूप से वितरित आईआईडी त्रुटियों को मानते हैं

y=θX+ϵ

Nyi,i=1,2,,NϵkN(0,σ)

y

p(y|X,θ;ϵ)=N(θX,σ)

जैसा कि यह पता चला है ... अधिकतम संभावना अनुमानक त्रुटि के लिए सामान्य धारणा के तहत अनुमानित और वास्तविक आउटपुट मानों के बीच चुकता त्रुटि को कम करने के समान है।

θ^MLE=argmaxθlogP(y|θ)=argminθi=1n(yiθxi)2

वजन पर पुजारियों के रूप में नियमितीकरण

यदि हम रेखीय प्रतिगमन के भार से पहले एक गैर-वर्दी को रखने के लिए थे, तो अधिकतम पोस्टीरियर संभावना (एमएपी) अनुमान होगा:

θ^MAP=argmaxθlogP(y|θ)+logP(θ)

के रूप में प्राप्त किया ब्रायन केंग के ब्लॉग पोस्ट , अगर एक लाप्लास वितरण यह बराबर है एल 1 नियमितीकरण के लिए पर है ।P(θ)θ

इसी तरह, यदि एक गौसियन डिस्ट्रीब्यूशन है, तो यह पर L2 नियमितीकरण के बराबर है ।P(θ)θ

गपशप बनाम गॉसियन

अब हमारे पास एक और विचार है कि भार पर पूर्व में लाप्लास लगाने से स्पार्सिटी को प्रेरित करने की अधिक संभावना क्यों है: क्योंकि लाप्लास वितरण शून्य के आसपास अधिक केंद्रित है , हमारे वजन शून्य होने की अधिक संभावना है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.