विरल मॉडल के लिए एल 1 मानदंड क्यों


97

मैं रैखिक प्रतिगमन के बारे में किताबें पढ़ रहा हूं। एल 1 और एल 2 मानक के बारे में कुछ वाक्य हैं। मैं उन्हें जानता हूं, बस समझ में नहीं आता कि विरल मॉडल के लिए एल 1 मानदंड क्यों। क्या कोई व्यक्ति सरल स्पष्टीकरण दे सकता है?


4
मूल रूप से, स्पार्सिटी एक आइसोसुरफेस की धुरी पर स्थित तेज किनारों से प्रेरित है। इस वीडियो में अब तक की सबसे अच्छी चित्रमय व्याख्या: youtube.com/watch?v=sO4ZirJh9ds
felipeduque

1
वहाँ पर एक ही एक ब्लॉग लेख chioka.in/...
प्रशांत

माध्यम की निम्न पोस्ट की जाँच करें। यह मदद कर सकता है medium.com/@vamsi149/...
solver149

जवाबों:


111

वेक्टर पर विचार करें जहां छोटा है। और के मानदंडों , क्रमशः, द्वारा दिया जाता हैx=(1,ε)R2ε>0l1l2x

||x||1=1+ε,  ||x||22=1+ε2

अब कहते हैं कि, कुछ नियमितीकरण प्रक्रिया के भाग के रूप में, हम के तत्वों में से एक को द्वारा कम करने जा रहे हैं । यदि हम को बदलते हैं , तो परिणामी मानदंड हैंxδεx11δ

||x(δ,0)||1=1δ+ε,  ||x(δ,0)||22=12δ+δ2+ε2

दूसरी ओर, को कम करने से हैंx2δ

||x(0,δ)||1=1δ+ε,  ||x(0,δ)||22=12εδ+δ2+ε2

यहाँ ध्यान देने वाली बात यह है कि, एक पेनल्टी के लिए, बड़े शब्द नियमित करने से मानक में बहुत अधिक कमी आती है, ऐसा करने के लिए छोटे शब्द । के लिए दंड, तथापि, कमी ही है। इस प्रकार, जब मानदंड का उपयोग करते हुए किसी मॉडल को दंडित किया है, तो यह अत्यधिक संभावना नहीं है कि कुछ भी कभी भी शून्य पर सेट किया जाएगा, क्योंकि से तक जाने वाले मानक में कमी लगभग है जब छोटा है। दूसरी ओर, मानक में कमी हमेशा बराबर होती हैl2x1x20l1l2l2ε0εl1δ, भले ही मात्रा पर जुर्माना लगाया जाए।

एक और तरीका है इसके बारे में सोचने के लिए: यह इतना नहीं है कि दंड विरलता प्रोत्साहित करते हैं, लेकिन यह है कि कुछ अर्थों में दंड को हतोत्साहित रिटर्न ह्रासमान उपज के रूप में तत्वों शून्य के करीब पहुंच रहे हैं द्वारा विरलता।l1l2


3
आपके उत्तर के लिए धन्यवाद! मैं अंतिम बिंदु से आश्वस्त नहीं हूँ, हालाँकि। यदि आप गैर-दंडित रैखिक प्रतिगमन चलाते हैं, तो आपको शायद ही कभी विरल समाधान मिलेंगे (जबकि एल 1 दंड को जोड़ने से आपको अक्सर स्पार्सिटी मिलेगी)। इसलिए L1 दंड वास्तव में गुणांक भेजकर विरलता को प्रोत्साहित करता है जो शून्य से शून्य के करीब शुरू होता है।
स्टीफन दांव

2
@StefanWager शायद यह एक अतिरंजना का एक सा है, लेकिन मुझे लगता है कि यह सच है कि यहाँ पेनल्टी के बारे में कुछ खास नहीं है: किसी भी लिए एक दंड 1 भी को प्रेरित करेगा, लेकिन आप उन कम अक्सर अभ्यास में देखते हैं (शायद इसलिए कि वे गैर-उत्तल हैं)। यदि आप वास्तव में केवल स्पार्सिटी चाहते हैं तो एक पेनल्टी (गैर-शून्य प्रविष्टियों की संख्या के अनुपात में) जाने का रास्ता है, यह सिर्फ इतना होता है कि इसके साथ काम करने के लिए एक बुरा सपना है। l1lαα1l0
बन्नुल

1
हाँ, यह सही है। ऐसे कई मानदंड हैं जो स्पार्सिटी की ओर ले जाते हैं (उदाहरण के लिए, जैसा कि आपने उल्लेख किया है, पी <= 1 के साथ कोई एलपी मानदंड)। सामान्य तौर पर, शून्य पर तेज कोने वाला कोई भी मानदंड स्पार्सिटी को प्रेरित करता है। इसलिए, मूल प्रश्न पर वापस जा रहे हैं - L1 मानदंड शून्य पर एक अव्यवस्थित प्रवणता (और इस संपत्ति के साथ कोई अन्य दंड भी ऐसा करेगा) के द्वारा स्पार्सिटी को प्रेरित करता है।
स्टीफन दांव

3
यदि कोई व्यक्ति अधिक पढ़ना चाहता है, तो गैर-उत्तल दंड कार्यों के बारे में एक सक्रिय साहित्य है जो एल 1 मानदंड (जैसे, हाल ही में, पेपर्सNips.cc/paper/… ) के विकल्प हैं।
स्टीफन दांव

1
महान जवाब मैं थोड़ी देर के लिए चारों ओर सोच रहा था जब तक मुझे यह नहीं मिला।
हाडी इलासार

72

एक विरल मॉडल के साथ, हम एक ऐसे मॉडल के बारे में सोचते हैं, जहाँ कई वेट 0. होते हैं। आइए इस कारण से कि L1-regularization के 0-वज़न बनाने की संभावना अधिक है।

वजन युक्त मॉडल पर विचार करें ।(w1,w2,,wm)

L1 नियमितीकरण के साथ, आप मॉडल को एक हानि फ़ंक्शन द्वारा दंडित करते हैं =।L1(w)Σi|wi|

L2-नियमितीकरण के साथ, आप मॉडल को एक हानि फ़ंक्शन = द्वारा दंडित करते हैंL2(w)12Σiwi2

यदि ग्रेडिएंट डिसेंट का उपयोग किया जाता है, तो आप क्रमिक रूप से वज़न को एक स्टेप साइज़ साथ ग्रैडिएंट के विपरीत दिशा में ढाल में बदल देंगे । इसका मतलब यह है कि अधिक खड़ी ढाल हमें बड़ा कदम उठाने में मदद करेगी, जबकि अधिक सपाट ग्रेडिएंट हमें एक छोटा कदम उठाने देगा। आइए हम ग्रेडिएंट्स को देखें (L1 के मामले में सबग्रेडिएंट):η

dL1(w)dw=sign(w) , जहांsign(w)=(w1|w1|,w2|w2|,,wm|wm|)

dL2(w)dw=w

यदि हम नुकसान फ़ंक्शन की साजिश करते हैं और यह एक एकल पैरामीटर से युक्त मॉडल के लिए व्युत्पन्न है, तो यह L1 के लिए ऐसा दिखता है:

यहाँ छवि विवरण दर्ज करें

और L2 के लिए इस तरह:

यहाँ छवि विवरण दर्ज करें

ध्यान दें कि , ढाल 1 या -1 है, जब को छोड़कर । इसका मतलब है कि L1- नियमितीकरण वजन के मूल्य पर ध्यान दिए बिना किसी भी वजन को उसी चरण आकार के साथ 0 की ओर ले जाएगा। इसके विपरीत, आप देख सकते हैं कि ढाल 0 की ओर रैखिक रूप से घट रहा है क्योंकि वजन 0. की ओर जाता है। इसलिए, L2-नियमितीकरण भी 0 की ओर किसी भी वजन को आगे , लेकिन यह 0 के दृष्टिकोण के रूप में छोटे और छोटे कदम उठाएगा।L1w1=0L2

कल्पना करने की कोशिश करें कि आप साथ एक मॉडल से शुरू करते हैं और । निम्नलिखित चित्र में, आप देख सकते हैं कि L1-नियमितीकरण का उपयोग करते हुए ढाल कैसे 10 अद्यतन करता है , जब तक कि साथ एक मॉडल तक नहीं पहुंच जाता :w1=5η=12w1:=w1ηdL1(w)dw=w1121w1=0

यहाँ छवि विवरण दर्ज करें

इसके विपरीत, L2- नियमितीकरण के साथ जहां , ग्रेडिएंट , जिसके कारण हर कदम केवल आधे रास्ते की ओर होता है। 0. यही है, हम अपडेट करते हैं इसलिए, मॉडल कभी भी 0 के वजन तक नहीं पहुंचता है, चाहे हम कितने भी कदम उठाएं:η=12w1w1:=w1ηdL2(w)dw=w112w1

यहाँ छवि विवरण दर्ज करें

ध्यान दें कि यदि चरण आकार इतना अधिक है कि L2-नियमितीकरण शून्य तक पहुँच सकता है, तो यह एकल चरण में शून्य तक पहुँच जाता है। यहां तक ​​कि अगर L2- अपने स्वयं के ऊपर नियमितीकरण या 0 को रेखांकित करता है, तो यह अभी भी 0 के वजन तक पहुंच सकता है जब एक उद्देश्य फ़ंक्शन के साथ एक साथ उपयोग किया जाता है जो वजन के संबंध में मॉडल की त्रुटि को कम करने की कोशिश करता है। उस मामले में, मॉडल का सबसे अच्छा वजन खोजना नियमित (छोटे वजन होने) और नुकसान को कम करने (प्रशिक्षण डेटा फिटिंग) के बीच एक व्यापार-बंद है, और उस व्यापार-बंद का परिणाम यह हो सकता है कि कुछ वजन के लिए सबसे अच्छा मूल्य है 0 हैं।η


3
क्या कोई मुझे समझा सकता है, कि जब हम वेट १ = ५.१ की बजाय ५. लेट w = ०.१, w> ० के बजाय ०.१ शुरू करते हैं, तो हम एक अनंत लूप में नहीं आएंगे , इसलिए हमारा आंशिक व्युत्पन्न १ बराबर है फिर दूसरा कदम उठाएं, अब w <0 => व्युत्पन्न = -1:तो हम करेंगे अंतहीन हिलाना पास 0.
η=0.5
wfirst step=0.10.5(+1)=>w=0.4
wsecondstep=0.40.5(1)=0.1.
एलेक्स Yashin

5
@AlexYashin जो सही है - अगर हमने केवल L1 नियमितीकरण के आधार पर वेट को अपडेट किया है, तो हो सकता है कि हम वज़न को कम कर दें, जो 0. के पास दोलन करता है। लेकिन वेट को एडजस्ट करने के लिए हम कभी भी नियमितीकरण का उपयोग नहीं करते हैं। हम नुकसान फ़ंक्शन के अनुकूलन के साथ संयोजन में नियमितीकरण का उपयोग करते हैं। इस तरह, नियमितीकरण वज़न को शून्य की ओर धकेलता है जबकि हम उसी समय वज़न को एक मान पर ले जाने की कोशिश करते हैं जो भविष्यवाणियों को अनुकूलित करता है। एक दूसरा पहलू सीखने की दर है। एक छोटी सी सीखने की दर के साथ, हम मूल्य के इतने करीब आ सकते हैं कि नियमितीकरण आस-पास दोलन कर सकता है कि हम इसे उपेक्षित कर सकते हैं
केंट मुन्थे कैस्परसन

1
Why dL2(w)/dwमॉड्यूल ’ क्यों है और न केवल रैखिक?
मर्ग्लूम

1
@mrloloom dL2(w)/dwको L2(w)वजन में प्रति परिवर्तन के परिवर्तन के रूप में पढ़ा जा सकता है । चूंकि L2-नियमितीकरण वजन को कम करता है, L2(w)इसलिए जब हम अधिक वजन करते हैं, तो वजन के समान परिवर्तन के लिए बहुत अधिक बदल जाएगा। यही कारण है कि जब आप इसे साजिश करते हैं तो फ़ंक्शन उत्तल होता है। हालांकि L1 के लिए, L1(w)वज़न के प्रति परिवर्तन में वही परिवर्तन हैं जो आपके वज़न की परवाह किए बिना हैं - यह एक रैखिक फ़ंक्शन की ओर जाता है।
केंट मुंठे कैस्परसेन 15'17

1
@KentMuntheCaspersen अद्भुत स्पष्टीकरण! रेखांकन और इस सहज बनाने के लिए आपके द्वारा निवेश किए गए प्रयास के लिए धन्यवाद!
लेसर

15

हास्टी, टिब्शिरानी और फ्रीडमैन द्वारा सांख्यिकी सीखने के तत्वों में से चित्र 3.11 बहुत ही आकर्षक है:यहाँ छवि विवरण दर्ज करें

स्पष्टीकरण: असंबंधित कम से कम वर्गों का अनुमान है। लाल दीर्घवृत्त हैं (जैसा कि इस चित्र के कैप्शन में बताया गया है) पैरामीटर और संदर्भ में कम से कम वर्गों त्रुटि फ़ंक्शन के । बाधाओं के बिना, त्रुटि फ़ंक्शन को MLE पर कम से कम किया जाता है , और इसका मूल्य बढ़ जाता है क्योंकि लाल ellipses का विस्तार होता है। हीरा और डिस्क क्षेत्र लासो ( ) प्रतिगमन और रिज ( ) प्रतिगमन के लिए संभव क्षेत्र हैं। स्वाभाविक रूप से, प्रत्येक विधि के लिए, हम लाल दीर्घवृत्त और नीले क्षेत्र के प्रतिच्छेदन की तलाश कर रहे हैं क्योंकि उद्देश्य व्यवहार्यता को बनाए रखते हुए त्रुटि फ़ंक्शन को कम करना है।β^β1β2β^L1L2

यह कहा जा रहा है, यह स्पष्ट है कि बाधा, जो कि हीरा संभव क्षेत्र से मेल खाती है, एक चौराहे का उत्पादन करने की अधिक संभावना है जिसमें समाधान का एक घटक शून्य है (यानी, विरल गुण) ज्यामितीय गुणों के कारण। एलिप्स, डिस्क और हीरे की। यह केवल इसलिए है क्योंकि हीरे के कोने होते हैं (जिनमें से एक घटक शून्य होता है) जो कि तिरछे विस्तार वाले अंडाकार के साथ काटना आसान होता है।L1


16
चित्रण अतिरिक्त जानकारी के बिना बहुत आश्वस्त नहीं है। उदाहरण के लिए, त्रुटि के वे बिंदु क्यों होने चाहिए, जहां वे आकृति में हैं?
वैबबिट

@HrishikeshGanu अंततः पोस्ट को संपादित करने के लिए कुछ समय मिला।
झांक्सिओनग


1
ध्यान दें कि L1 किनारों के साथ केवल तभी पसंद किया जाता है जब पास और अक्ष पर भिन्न भिन्न । दूसरे शब्दों में जब रेडलाइन वितरण विकर्ण अक्ष पर सममित नहीं होता है। यदि यह सममित है तो पूरे किनारे की समान दूरी / मूल्य / लागत है। β^β1β2β1=β2
तायुत्विदस

13

सांख्यिकीय सीखने के तत्वों के आंकड़े 3.11 (पृष्ठ 71) पर एक नज़र डालें । यह एक असंबंधित की स्थिति को दर्शाता है जो चुकता त्रुटि फ़ंक्शन को कम करता है, वर्ग त्रुटि फ़ंक्शन के स्तर को दिखाने वाले दीर्घवृत्त और जहां लिए बाधाएं और ।β^β^1(β^)<t2(β^)<t

यह आपको बहुत ज्यामितीय रूप से उस विषय को समझने की अनुमति देगा जो बाधा के अधीन है , आपको कुछ अशक्त घटक मिलते हैं। यह मूल रूप से है क्योंकि बॉल में कुल्हाड़ियों पर "किनारे" हैं।11{x:1(x)1}

आम तौर पर, यह पुस्तक इस विषय पर एक अच्छा संदर्भ है: कठोर और अच्छी तरह से सचित्र, महान स्पष्टीकरण।


3
मुझे लगता है कि आपका दूसरा पैराग्राफ एक कुंजी है ... कम से कम मेरे अंतर्ज्ञान के लिए: एक एल 1 "बॉल" एक हीरे की तरह है जो कुल्हाड़ियों के साथ स्पाइक है, जिसका मतलब है कि हाइपरप्लेन को हिट करने के लिए विवश होने पर शून्य पर होने की अधिक संभावना है कुल्हाड़ियों।
वेन

2
हां, मैं अनुकूलन प्रक्रिया की कल्पना दो बलों को सौंपे गए बिंदु के आंदोलन के रूप में करता हूं: असंबद्ध के प्रति आकर्षण, त्रुटि फ़ंक्शन के लिए धन्यवाद, 0 से या प्रति आकर्षण । यहां, इस आकर्षण बल की "ज्यामिति" बिंदु के व्यवहार को बदल देती है। यदि आप एक छोटी सी या गेंद को ठीक करते हैं , जिसमें वह स्वतंत्र रूप से आगे बढ़ सकता है, तो वह गेंद की सीमा पर स्लाइड करेगा, ताकि वह पास जा सके । परिणाम पूर्वोक्त पुस्तक में चित्रण पर दिखाया गया है ...1212 बीटाβ^1212β^
एल्विस

3
पुस्तक अच्छी है, लेकिन यह कभी नहीं समझाता है कि यह कहां से आया और इसके पीछे का गणित।
user13985

2

एक साधारण गैर गणितीय उत्तर होना चाहिए:

L2 के लिए: जुर्माना शब्द चुकता किया गया है , इसलिए एक छोटे से मूल्य को चुकता करने से यह छोटा हो जाएगा। हमें न्यूनतम वर्ग त्रुटि प्राप्त करने के लिए अपने लक्ष्य को प्राप्त करने के लिए इसे शून्य करने की आवश्यकता नहीं है, हम इसे पहले प्राप्त करेंगे।

L1 के लिए: जुर्माना शब्द निरपेक्ष है , हमें शून्य पर जाने की आवश्यकता हो सकती है क्योंकि छोटे को छोटा करने के लिए कोई उत्प्रेरक नहीं है

यह मेरी बात है।


मेरे लिए बहुत आश्वस्त नहीं है।
टायलर 将士 十三 归 '

2

एल 1 नॉर्म बनाम एल 2 नॉर्म

छवि L1 और L2 नॉर्म के कब्जे वाले क्षेत्र की आकृतियों को दिखाती है। दूसरी छवि में विभिन्न रिग्रेशन समस्याओं के लिए विभिन्न ग्रैडिएंट डिसेंट कंट्रोवर्स होते हैं। सभी समोच्च भूखंडों में, लाल घेरे का निरीक्षण करें जो रिज या एल 2 नॉर्म को प्रतिच्छेद करता है। चौराहा कुल्हाड़ियों पर नहीं है। सभी कंट्रोल्स में मौजूद ब्लैक सर्कल L1 नॉर्म या लास्सो को इंटरसेप्ट करता है। यह कुल्हाड़ियों के अपेक्षाकृत समीपस्थ है। इसके परिणामस्वरूप गुणांक 0 हो जाता है और इसलिए चयन की सुविधा होती है। इसलिए L1 मानदंड मॉडल को विरल बनाते हैं।

निम्नलिखित लिंक पर और अधिक विस्तृत विवरण: डेटा विज्ञान की ओर पोस्ट पर क्लिक करें


यह एक अच्छी व्याख्या है, लेकिन उदाहरण लागत कार्यों की अभिव्यक्ति पर अतिरिक्त टिप्पणी भी उपयोगी होगी। यानी, गोलाकार आकार of -norm त्रुटियां सहज लगती हैं, हालांकि, संकीर्ण-लम्बी आकार, (अधिकांश अन्य उदाहरणों में भी प्रयुक्त), तुच्छ और आत्म-व्याख्यात्मक नहीं लगती है। (यहां मैं अंजीर पर शीर्ष बाएं लागत-फ़ंक्शन के बारे में बात कर रहा हूं। (बी): क्यों इसकी प्रमुख दिशा बिंदु की ओर आ रही है , और नहीं, कहते हैं, ? अलग, और न्यूनतम बिंदु 0 पर नहीं होगा !)β 2 1 = 1 β 1 = 0 L 12β1=1β1=0L1
नटले
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.