ब्रिज पेनल्टी बनाम इलास्टिक नेट नियमितिकरण


22

कुछ दंड कार्यों और सन्निकटन का अच्छी तरह से अध्ययन किया जाता है, जैसे कि LASSO ( ) और रिज ( ) और ये कैसे प्रतिगमन में तुलना करते हैं।एल 2L1L2

मैं ब्रिज पेनल्टी के बारे में पढ़ रहा हूं, जो कि सामान्यीकृत जुर्माना है। उसकी तुलना उस LASSO से करें, जिसके पास Gamma , और Ridge, के साथ \ Gamma = 2 है , जिससे वे विशेष मामले बनाते हैं। γ = 1 γ = 2βjγγ=1γ=2

वेनजियांग [ 1 ] ने ब्रिज के दंड की तुलना तब की जब γ1 से LASSO, लेकिन मैं इलास्टिक नेट नियमितीकरण, LASSO और रिज दंड के संयोजन की तुलना नहीं कर सका, जिसे \ sum's lambda_ {2 के रूप में दिया गया। } \ | \ बीटा \ | ^ {2} + \ lambda_ {1} \ | \ बीटा \ | _ {1}λ2β2+λ1β1

यह एक दिलचस्प सवाल है क्योंकि इलास्टिक नेट और इस विशिष्ट ब्रिज में समान बाधाएं हैं। विभिन्न मेट्रिक्स का उपयोग करके इन इकाई हलकों की तुलना करें ( p मिंकोवस्की दूरीp की शक्ति है ):

Minkowski दूरी की विभिन्न शक्तियों के लिए इकाई हलकों

p=1 LASSO से संबंधित है, p=2 से रिज तक, और p=1.4 से एक संभव ब्रिज। इलास्टिक नेट L1 और L2 दंड पर समान भार के साथ उत्पन्न हुआ था । उदाहरण के लिए, ये आंकड़े उपयोगी हैं, उदाहरण के लिए (जो ब्रिज स्पष्ट रूप से अभाव है, जबकि इलास्टिक नेट इसे LASSO से सुरक्षित रखता है)।

तो 1<γ<2 _ गामा <2 के साथ ब्रिज नियमितीकरण (विरलता के अलावा) के संबंध में लोचदार नेट से कैसे करता है ? मुझे पर्यवेक्षित शिक्षण में विशेष रुचि है, इसलिए शायद सुविधा चयन / भार के बारे में एक चर्चा उचित है। ज्यामितीय तर्क का भी स्वागत है।

शायद, अधिक महत्वपूर्ण, क्या इलास्टिक नेट हमेशा इस मामले में अधिक वांछनीय है?


[१] फू, डब्ल्यूजे (१ ९९ W)। दंडित प्रतिगमन: पुल बनाम लास्सो। कम्प्यूटेशनल और ग्राफिकल आंकड़ों के जर्नल, 7 (3), 397-416।


संपादित करें: यह सवाल है कि कैसे तय करें कि किस दंड का उपयोग करना है? पाठ्यपुस्तक से बाहर किसी भी सामान्य दिशानिर्देश या अंगूठे का नियम जिसमें सतही तौर पर LASSO, रिज, ब्रिज और इलास्टिक नेट का उल्लेख है, लेकिन उनकी तुलना करने के लिए कोई प्रयास नहीं हैं।


4
केवल से संबंधित है, लेकिन अगर मानक जुर्माना गुणांक पर स्वतंत्र लाप्लास साथ बायेसियन प्रतिगमन का एमएपी अनुमान है, और गौसियन के लिए समान है, तो मुझे आश्चर्य है कि क्या पुल जुर्माना एक सबबॉटिन से पहले के बराबर है ... आंकड़े.stackexchange.com/questions/201038/…एल 2L1L2
कहना है कि मोनिका

@ रीचर्डहार्डी सभी राजधानियों में लासो लिखने की आवश्यकता नहीं है, मेरी टिप्पणी यहां देखें
अमीबा को फिर से बहाल मोनिका का कहना है

2
ध्यान रखें कि ब्रिज प्रतिगमन लिए अनुमति देता है जो एक गैर-उत्तल प्रतिगमन देता है। जब विशेष रूप से विरल डेटा से कोविराट के समूहों का चयन करने की कोशिश करते हुए ये विशेष रूप से अच्छे होते हैं। या सामान्य तौर पर आपके पास सहसंयोजकों के पूर्व-परिभाषित समूह हो सकते हैं, जिन्हें आप नियमित करेंगे ताकि कोई विशेष समूह बड़ा न हो, और फिर स्पार्सिटी प्राप्त करने के लिए एकल समूह गुणांक को नियमित करें। Ie यदि आप , जहां तब आप कर सकते हैं । γ<1L2L1β=(a1,,ak)ai=(βi1,βi2,,,βir)λ1βγi+λ2iaiνi
एलेक्स आर।

@AlexR। मुझे वास्तव में यह स्पष्ट करना चाहिए कि मैं संदर्भ देता हूं । मुझे पता नहीं था कि को ब्रिज भी कहा जाता है। γ < 1γ1γ<1
फायरबग

1
@ लिंबा, ठीक है, ठीक है। मैं आम तौर पर संपादित नहीं करता हूं यदि राजधानियों का उपयोग पूरे पोस्ट के अनुरूप है, लेकिन इस बार "LASSO" और "लासो" दोनों थे, इसलिए मैं सिर्फ "LASSO" के लिए गया, जो पोस्ट में पहला रूप था। मैं हमेशा परिचित के बारे में सोचता हूं, यही कारण है कि मैंने सभी राजधानियों का उपयोग किया; लेकिन जैसा कि आप कहते हैं, सरल "लासो" बेहतर हो सकता है।
रिचर्ड हार्डी

जवाबों:


20

कैसे पुल प्रतिगमन और लोचदार जाल अलग-अलग एक आकर्षक प्रश्न है, उनके समान दिखने वाले दंड दिए गए हैं। यहाँ एक संभव दृष्टिकोण है। मान लीजिए हम पुल प्रतिगमन समस्या को हल करते हैं। हम फिर पूछ सकते हैं कि लोचदार शुद्ध समाधान कैसे भिन्न होगा। दो नुकसान कार्यों के ग्रेडिएंट को देखकर हमें इस बारे में कुछ बता सकते हैं।

ब्रिज रिग्रेशन

Say स्वतंत्र मैट्रिक्स के मानों वाला एक मैट्रिक्स है ( अंक x आयाम), एक वेक्टर है जिसमें आश्रित चर के मान हैं, और वेट वेक्टर है।एन डी वाई डब्ल्यूXndyw

नुकसान फ़ंक्शन , परिमाण साथ वजन के मानदंड को दंडित करता है :λ बीqλb

Lb(w)=yXw22+λbwqq

नुकसान समारोह की ढाल है:

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)

मैं वी सी मैं sgn ( डब्ल्यू ) डब्ल्यू क्षvc Hadamard (अर्थात तत्व-वार) शक्ति को दर्शाता है, जो एक वेक्टर देता है जिसका th तत्व । साइन फंक्शन ( प्रत्येक तत्व पर लागू ) है। कुछ मानों के लिए शून्य पर अपरिभाषित हो सकता है ।ivicsgn(w)wq

लोचदार जाल

नुकसान समारोह है:

Le(w)=yXw22+λ1w1+λ2w22

यह penalizes परिमाण के साथ वजन के आदर्श और परिमाण के साथ आदर्श । इस नुकसान को कम करने के लिए लोचदार नेट पेपर कॉल 'भोले लोचदार जाल' का कार्य करता है क्योंकि यह वजन को दोगुना कम करता है। वे एक बेहतर प्रक्रिया का वर्णन करते हैं जहां वजन बाद में दोहरे संकोचन के लिए क्षतिपूर्ति करने के लिए फिर से शुरू किया जाता है, लेकिन मैं सिर्फ भोले संस्करण का विश्लेषण करने जा रहा हूं। यह ध्यान में रखने के लिए एक चेतावनी है।λ 1 2 λ 21λ12λ2

नुकसान समारोह की ढाल है:

wLe(w)=2XT(yXw)+λ1sgn(w)+2λ2w

शून्य पर अपरिभाषित है जब क्योंकि पेनल्टी में निरपेक्ष मूल्य वहाँ नहीं है।1λ1>01

पहुंच

मान लें कि हम वज़न चुनते हैं जो ब्रिज रिग्रेशन समस्या का समाधान करता है। इसका मतलब है कि इस बिंदु पर पुल प्रतिगमन ढाल शून्य है:w

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)=0

इसलिए:

2XT(yXw)=λbq|w|(q1)sgn(w)

हम इसे लोचदार नेट ग्रेडिएंट में प्रतिस्थापित कर सकते हैं, पर लोचदार नेट ग्रेडिएंट के लिए एक अभिव्यक्ति प्राप्त कर सकते हैं । सौभाग्य से, यह अब सीधे डेटा पर निर्भर नहीं करता है:w

wLe(w)=λ1sgn(w)+2λ2wλbq|w|(q1)sgn(w)

पर इलास्टिक नेट ग्रेडिएंट को देखते हुए हमें बताता है: यह देखते हुए कि ब्रिज रिग्रेशन वज़न परिवर्तित हो गया है, इलास्टिक नेट इन वेट को कैसे बदलना चाहेंगे?डब्ल्यू *ww

यह हमें वांछित परिवर्तन की स्थानीय दिशा और परिमाण प्रदान करता है, क्योंकि ढाल के आरोही की दिशा में ढाल बिंदु और नुकसान का कार्य घट जाएगा क्योंकि हम ढाल के विपरीत दिशा में आगे बढ़ते हैं। ढाल सीधे लोचदार शुद्ध समाधान की ओर इशारा नहीं कर सकता है। लेकिन, क्योंकि लोचदार शुद्ध हानि फ़ंक्शन उत्तल है, स्थानीय दिशा / परिमाण इस बारे में कुछ जानकारी देता है कि लोचदार शुद्ध समाधान पुल प्रतिगमन समाधान से कैसे भिन्न होगा।

केस 1: स्वच्छता जांच

(( )। इस मामले में ब्रिज रिग्रेशन साधारण न्यूनतम वर्गों (ओएलएस) के बराबर है, क्योंकि जुर्माना परिमाण शून्य है। लोचदार जाल बराबर रिज प्रतिगमन है, क्योंकि केवल मानदंड दंडित किया गया है। निम्नलिखित भूखंड विभिन्न पुल प्रतिगमन समाधान दिखाते हैं और प्रत्येक के लिए लोचदार शुद्ध ढाल कैसे व्यवहार करता है।2λb=0,λ1=0,λ2=12

यहां छवि विवरण दर्ज करें

वाम कथानक: प्रत्येक आयाम के साथ लोचदार शुद्ध ढाल बनाम पुल प्रतिगमन वजन

X अक्ष, पुल प्रतिगमन द्वारा चुने गए भार सेट के एक घटक का प्रतिनिधित्व करता है । Y अक्ष लोचदार नेट ग्रेडिएंट के संबंधित घटक को दर्शाता है, जिसका मूल्यांकन । ध्यान दें कि वज़न बहुआयामी है, लेकिन हम केवल एक ही आयाम के साथ वज़न / ग्रेडिएंट देख रहे हैं।डब्ल्यू *ww

सही भूखंड: पुल प्रतिगमन वजन (2d) के लिए लोचदार शुद्ध परिवर्तन

प्रत्येक बिंदु पुल प्रतिगमन द्वारा चयनित 2d वजन एक सेट का प्रतिनिधित्व करता है । की प्रत्येक पसंद के लिए , वेक्टर को लोचदार नेट ग्रेडिएंट के विपरीत दिशा में इंगित किया जाता है, जो कि ग्रेडिएंट के समानुपाती के साथ होता है। यही है, प्लॉट किए गए वैक्टर बताते हैं कि लोचदार जाल पुल प्रतिगमन समाधान को कैसे बदलना चाहता है।डब्ल्यू *ww

ये प्लॉट दर्शाते हैं कि, ब्रिज रिग्रेशन (इस मामले में ओएलएस) की तुलना में, लोचदार नेट (इस मामले में रिज रिग्रेशन) शून्य की ओर वज़न कम करना चाहता है। भार की मात्रा के साथ संकोचन की वांछित मात्रा बढ़ जाती है। यदि वजन शून्य है, तो समाधान समान हैं। व्याख्या यह है कि हम नुकसान को कम करने के लिए ढाल के विपरीत दिशा में आगे बढ़ना चाहते हैं। उदाहरण के लिए, मान लें कि पुल प्रतिगमन एक वज़न के लिए एक सकारात्मक मूल्य में परिवर्तित हो गया। इस बिंदु पर लोचदार शुद्ध ढाल सकारात्मक है, इसलिए लोचदार जाल इस वजन को कम करना चाहता है। यदि ढाल वंश का उपयोग करते हुए, हम आकार में ढाल के अनुपात में कदम उठाएंगे (बेशक, हम शून्य पर गैर-भिन्नता के कारण लोचदार नेट को हल करने के लिए तकनीकी रूप से ढाल वंश का उपयोग नहीं कर सकते हैं)

केस 2: मैचिंग ब्रिज और इलास्टिक नेट

( )। मैंने सवाल से उदाहरण के लिए पुल पेनल्टी पैरामीटर चुना। मैंने सबसे अच्छा मिलान लोचदार शुद्ध जुर्माना देने के लिए लोचदार शुद्ध मापदंडों को चुना। यहां, सर्वोत्तम-मिलान साधनों को, वज़न के एक विशेष वितरण को देखते हुए, हम लोचदार शुद्ध दंड मापदंडों को पाते हैं जो पुल और लोचदार शुद्ध दंड के बीच अपेक्षित चुकता अंतर को कम करते हैं:q=1.4,λb=1,λ1=0.629,λ2=0.355

minλ1,λ2E[(λ1w1+λ2w22λbwqq)2]

यहाँ, मैंने (यानी मूल में केंद्रित हाइपरक्यूब के भीतर पर समान वितरण से खींची गई सभी प्रविष्टियों के साथ वजन पर विचार किया । सर्वश्रेष्ठ-मिलान लोचदार शुद्ध पैरामीटर 2 से 1000 आयामों के लिए समान थे। यद्यपि वे आयामीता के प्रति संवेदनशील नहीं दिखते हैं, सबसे अच्छा-मिलान पैरामीटर वितरण के पैमाने पर निर्भर करता है।[2,2]

दंड की सतह

यहाँ पुल प्रतिगमन ( ) द्वारा लगाए गए कुल जुर्माने का एक समोच्च कथानक है और वज़न के 2d मामले के लिए फ़ंक्शन के रूप में सर्वोत्तम-मिलान लोचदार जाल ( ) है। ):q=1.4,λb=100λ1=0.629,λ2=0.355

यहां छवि विवरण दर्ज करें

धीरे-धीरे व्यवहार

यहां छवि विवरण दर्ज करें

हम निम्नलिखित देख सकते हैं:

  • चलो आयाम में चुना पुल प्रतिगमन वजन होना ।wjj
  • If , लोचदार नेट शून्य की ओर भार को सिकोड़ना चाहता है।|wj|<0.25
  • अगर , पुल प्रतिगमन और लोचदार शुद्ध समाधान समान हैं। लेकिन, अगर वजन थोड़ा भी अलग हो तो इलास्टिक नेट दूर जाना चाहता है।|wj|0.25
  • यदि , लोचदार नेट वजन बढ़ाना चाहता है।0.25<|wj|<1.31
  • अगर , पुल प्रतिगमन और लोचदार शुद्ध समाधान समान हैं। इलास्टिक नेट आस-पास के भार से इस बिंदु की ओर बढ़ना चाहता है।|wj|1.31
  • अगर , लोचदार नेट वजन कम करना चाहता है।|wj|>1.31

यदि हम और / या के मान को बदलते हैं, तो परिणाम गुणात्मक रूप से समान होते हैं और संबंधित सर्वश्रेष्ठ । वे बिंदु जहाँ पुल और इलास्टिक नेट सॉल्यूशन में थोड़ा परिवर्तन होता है, लेकिन ग्रेडिएंट्स का व्यवहार अन्यथा समान होता है।qλbλ1,λ2

केस 3: बेमेल पुल और लोचदार जाल

(q=1.8,λb=1,λ1=0.765,λ2=0.225) । इस शासन में, पुल प्रतिगमन रिज प्रतिगमन के समान व्यवहार करता है। मैं सबसे अधिक मेल खाने पाया , लेकिन फिर उन्हें इतना है कि लोचदार शुद्ध बर्ताव अधिक लैसो (तरह बदली से दंड अधिक से अधिक दंड)।λ1,λ212

यहां छवि विवरण दर्ज करें

पुल प्रतिगमन के सापेक्ष, लोचदार नेट शून्य की ओर छोटे भार को सिकोड़ना और बड़े वजन को बढ़ाना चाहता है। प्रत्येक क्वाड्रेंट में वेट का एक सेट होता है जहाँ ब्रिज रिग्रेशन और इलास्टिक नेट सॉल्यूशन मेल खाते हैं, लेकिन इलास्टिक नेट इस पॉइंट से दूर जाना चाहते हैं अगर वेट थोड़ा अलग भी हो।

(q=1.2,λb=1,λ1=173,λ2=0.816) । इस शासन में, पुल जुर्माना एक दंड के समान है (हालांकि पुल प्रतिगमन साथ विरल समाधान का उत्पादन नहीं कर सकता है , जैसा कि लोचदार शुद्ध कागज में वर्णित है)। मैं सबसे अधिक मेल खाने पाया , लेकिन फिर उन्हें इतनी बदली है कि और अधिक रिज प्रतिगमन की तरह लोचदार शुद्ध बर्ताव करता है ( से दंड अधिक से अधिक दंड)।1q>1λ1,λ221

यहां छवि विवरण दर्ज करें

पुल प्रतिगमन के सापेक्ष, लोचदार नेट छोटे वजन को बढ़ाना और बड़े वजन को छोटा करना चाहता है। प्रत्येक क्वाड्रंट में एक बिंदु होता है जहां पुल प्रतिगमन और लोचदार शुद्ध समाधान संयोग करते हैं, और लोचदार नेट पड़ोसी बिंदुओं से इन भार की ओर बढ़ना चाहते हैं।


3
(+1) शानदार जवाब, प्रयास के लिए धन्यवाद! क्या आप एक आखिरी बात को संबोधित कर सकते हैं: "इलास्टिक नेट हमेशा अधिक वांछनीय है?"। लंबा होने की आवश्यकता नहीं है;
फायरबग

6
ब्रिज रिग्रेशन और इलास्टिक नेट, एमएपी आकलन के बराबर हैं, जो वज़न पर विभिन्न प्रकार के पुजारियों के साथ हैं। इस दृष्टिकोण से, ऐसा लगता है कि बेहतर विकल्प पूर्व होगा जो डेटा-जनरेट करने की प्रक्रिया से बेहतर मेल खाता है, और यह कि न तो विधि सभी मामलों में बेहतर हो सकती है।
user20160

2
+6, बहुत अच्छा जवाब। आपके उपरोक्त टिप्पणी के बारे में: क्या पूर्व उपज पुल प्रतिगमन है? मुझे पता है कि गाऊसी पहले लसो से पहले रिज और लाप्लास से मेल खाती है। क्या कोई किसी भी तरह से इन पुजारियों को जोड़ सकता है जो लोचदार नेट से मेल खाती है?
अमीबा का कहना है कि

2
@amoeba प्रश्न मुझे निर्देशित नहीं किया गया था, मुझे पता है, लेकिन जैसा कि जनरलअब्रियल ने सवाल में कहा है, पुल शायद एक सबबोटिन से पहले से मेल खाता है। इलास्टिक नेट, जैसा कि अपेक्षित है, गाऊसी और लाप्लासियन पुजारियों के बीच है। देखें ली, प्र, और लिन, एन (2010)। बायेसियन इलास्टिक नेट। बायेसियन विश्लेषण, 5 (1), 151-170। और ज़ू, एच।, और हस्ती, टी। (2005)। लोचदार जाल के माध्यम से नियमितीकरण और चर चयन। रॉयल स्टैटिस्टिकल सोसाइटी का जर्नल: सीरीज़ बी (सांख्यिकी पद्धति), 67 (2), 301-320। लोचदार जाल और पुल प्रतिगमन के बीच एक संक्षिप्त तुलना के लिए।
फायरबग

2
इस पोस्ट के लिए इनाम और ध्यान आकर्षित करने के लिए @amoeba, इसी तरह अन्य पोस्ट के लिए PCA बनाम नॉनलाइनियर डायमेंशन में कमी के लिए धन्यवाद। यह सराहनीय है कि आप अपने प्रतिनिधि का उपयोग दूसरों के प्रश्नों / उत्तरों को बढ़ावा देने के लिए करते हैं, और यह मुझे खुशी देता है यदि यह पोस्ट कम से कम लोगों के लिए कुछ मूल्य है। अन्य, दयालु शब्दों के लिए भी धन्यवाद।
user20160
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.