बंद फार्म lasso समाधान की व्युत्पत्ति


52

समस्या के लिए ऐसा \ leq t | मैं अक्सर सॉफ्ट- थ्रॉल्डिंग परिणाम \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ Beta ^ {\ text {LS}} _ j) (! \ Beta_j ^ {\ text} / LS}} देखता हूं। + ( गामा) ^ + के लिए ओर्थोनॉमिक एक्स केस। यह दावा किया जाता है कि इस तरह के समाधान को "आसानी से दिखाया जा सकता है", लेकिन मैंने कभी भी काम नहीं किया है। किसी ने देखा है या शायद व्युत्पत्ति किया है?minβ(YXβ)T(YXβ)β1t

βjlasso=sgn(βjLS)(|βjLS|γ)+
X

यह थोड़ा उलझा हुआ लगता है। शुरुआत में आप एक बाधा टी मान लेते हैं tऔर समाधान में आप एक पैरामीटर \ गामा का परिचय देते हैं γ। मुझे लगता है कि आप इन दोनों को दोहरी समस्या के माध्यम से संबंधित होने का इरादा रखते हैं, लेकिन शायद आप स्पष्ट कर सकते हैं कि आप क्या देख रहे हैं।
कार्डिनल

2
आंशिक रूप से खोजने, @cardinal का जवाब β कि कम से कम (YXβ)(YXβ) के अधीन β1t पाने के लिए बराबर है β कि कम करता है (YXβ)(YXβ)+γj|βj|t और गामा के बीच 1-1 संबंध है γ। 'आसानी से' देखने के लिए कि सॉफ्ट-थ्रॉल्डिंग परिणाम क्यों है, मैं दूसरी अभिव्यक्ति (मेरी टिप्पणी में) को हल करने की सलाह दूंगा।

2
एक और नोट, जब ( β को कम करने वाला \ n खोज (YXβ)(YXβ)+γj|βj|, मामलों को βj>0 , βj<0 , और \ बीटा = 0 में समस्या को तोड़ेंβ=0

2
@ कार्डिनल आह हां, 1-1 गलत है। सुधार: प्रत्येक t0 , आप एक \ gamma \ geq 0 पा सकते हैं γ0

3
एक महान चर्चा के लिए धन्यवाद! मुझे यह वीडियो आंसरशीट पर आया है - डेज़िंग द लास्सो कोऑर्डिनेट डीसेंट अपडेट , जो इस चर्चा के लिए बहुत प्रासंगिक है, और समाधान के माध्यम से बहुत ही सुरुचिपूर्ण ढंग से चलता है। भविष्य के आगंतुकों के लिए सहायक हो सकता है :-)
zorbar

जवाबों:


64

यह कई तरीकों से हमला किया जा सकता है, जिसमें करुश-कुह्न-टकर स्थितियों के माध्यम से काफी किफायती दृष्टिकोण शामिल हैं

नीचे एक काफी प्रारंभिक वैकल्पिक तर्क दिया गया है।

एक ऑर्थोगोनल डिजाइन के लिए सबसे कम वर्ग समाधान

मान लीजिए कि ऑर्थोगोनल कॉलम से बना है। फिर, सबसे कम वर्ग का समाधान X

β^LS=(XTX)1XTy=XTy.

कुछ समकक्ष समस्याएं

लैग्रेंजियन फॉर्म के माध्यम से, यह देखने के लिए सीधा है कि प्रश्न में माना गया एक समतुल्य समस्या

minβ12yXβ22+γβ1.

पहले शब्द का विस्तार करते हुए हमें और बाद से कोई भी सम्‍मिलित नहीं है ब्याज के चर, हम इसे त्याग सकते हैं और अभी तक एक और समतुल्य समस्या पर विचार कर सकते हैं, 12yTyyTXβ+12βTβyTy

minβ(yTXβ+12β2)+γβ1.

यह देखते हुए कि , पिछली समस्या को रूप में फिर से लिखा जा सकता है β^LS=XTy

minβi=1pβ^iLSβi+12βi2+γ|βi|.

हमारा उद्देश्य फ़ंक्शन अब उद्देश्यों का एक योग है, प्रत्येक एक अलग चर अनुरूप है , इसलिए वे प्रत्येक व्यक्तिगत रूप से हल हो सकते हैं।βi

संपूर्ण इसके भागों के योग के बराबर है

एक निश्चित तय करो । फिर, हम को कम से कम करना चाहते हैं i

Li=β^iLSβi+12βi2+γ|βi|.

यदि , तो हमारे पास होना चाहिए अन्यथा हम इसके संकेत को फ्लिप कर सकते हैं और उद्देश्य फ़ंक्शन के लिए कम मान प्राप्त कर सकते हैं। इसी तरह अगर , तो हमें चुनना होगा ।β^iLS>0βi0β^iLS<0βi0

केस 1 : । चूंकि , और इसे अलग करने के लिए संबंध में और शून्य के बराबर सेट करें। , हम प्राप्त करते हैं और यह केवल तभी संभव होता है जब दाईं ओर का भाग होता है, इसलिए इस मामले में वास्तविक समाधान β^iLS>0βi0

Li=β^iLSβi+12βi2+γβi,
βiβi=β^iLSγ
β^ilasso=(β^iLSγ)+=sgn(β^iLS)(|β^iLS|γ)+.

केस 2 : । इसका तात्पर्य है कि हमारे पास और so संबंध में अंतर और शून्य के बराबर स्थापित करने पर, हमें । लेकिन, फिर से, यह सुनिश्चित करने के लिए संभव है, हमें , जो β^iLS0βi0

Li=β^iLSβi+12βi2γβi.
βiβi=β^iLS+γ=sgn(β^iLS)(|β^iLS|γ)βi0
β^ilasso=sgn(β^iLS)(|β^iLS|γ)+.

दोनों ही मामलों में, हमें वांछित फॉर्म मिलता है, और इसलिए हमें किया जाता है।

अंतिम टिप्पणी

ध्यान दें कि के रूप में बढ़ जाती है, तो के प्रत्येकआवश्यक रूप से घट जाती है, इसलिए ऐसा होता है । जब , हम OLS समाधानों को पुनर्प्राप्त करते हैं, और,, हम प्राप्त सभी के लिए ।γ|β^ilasso|β^lasso1γ=0γ>maxi|β^iLS|β^ilasso=0i


2
ग्रेट राइटअप @कार्डिनल!
गैरी

9
+1 पूरे उत्तरार्ध को साधारण अवलोकन द्वारा प्रतिस्थापित किया जा सकता है जो उद्देश्य फ़ंक्शन है पर कोने के साथ दो उत्तल परवलों के कुछ हिस्सों का एक संघ , जहां नकारात्मक संकेत लिए लिया जाता है और सकारात्मक अन्यथा। सूत्र केवल निचले शीर्ष को चुनने का एक फैंसी तरीका है। β12β2+(±γβ^)β±γβ^β<0
whuber

यदि संभव हो, तो मैं केकेटी-इष्टतम स्थितियों का उपयोग करके व्युत्पन्नियों को देखना चाहूंगा। इस परिणाम को प्राप्त करने के लिए और क्या तरीके हैं?
user1137731

5
@ कार्डिनल: एक अच्छी व्युत्पत्ति के लिए धन्यवाद। एक अवलोकन। अगर मुझे याद है, तो ऑर्थोगोनल कॉलम के साथ मैट्रिक्स ऑर्थोगोनल (उर्फ ऑर्थोनॉर्मल) मैट्रिक्स के समान नहीं है। फिर कुछ विकर्ण मैट्रिक्स (आवश्यक रूप से पहचान मैट्रिक्स नहीं) के लिए। ऑर्थोगोनल मैट्रिक्स धारणा के साथ (जैसा कि मूल प्रश्न में है), हमारे पास और सभी बहुत :)XX=DDXX=I
ओलेग

@ कार्डिनल मुझे नहीं मिलता है कि आप क्यों कहते हैं "क्योंकि अन्यथा हम इसके संकेत को फ्लिप कर सकते हैं और उद्देश्य फ़ंक्शन के लिए कम मूल्य प्राप्त कर सकते हैं"। हम उद्देश्य समारोह के व्युत्पन्न ले रहे हैं। तो क्या हुआ अगर उद्देश्य फ़ंक्शन अधिक या कम है, जो परवाह करता है। हम सभी की परवाह करते हैं कि व्युत्पन्न शून्य पर सेट है, हम एक्सट्रैमा के बारे में परवाह करते हैं। चाहे वह किसी स्थिरांक से अधिक या कम हो, यह अर्गमिन को प्रभावित नहीं करता है।
user13985

7

मान लें कि covariates , के कॉलम , यह भी इतना है कि मानकीकृत कर रहे हैं । यह बस बाद में सुविधा के लिए है: इसके बिना, यह संकेतन सिर्फ विकर्ण होने के बाद से भारी हो जाता है। इसके अलावा मान लें कि । धारण करने के परिणाम के लिए यह एक आवश्यक धारणा है। कम से कम वर्गों के अनुमानक को परिभाषित करें परिभाषित करें । फिर, लैस्सो अनुमानक के लैगरैनी रूप) xjXRn×pXTX=IXTXnpβ^OLS=argminβyXβ22

(defn.)β^λ=argminβ12nyXβ22+λβ1(OLS is projection)=argminβ12nXβ^OLSXβ22+λβ1(XTX=I)=argminβ12nβ^OLSβ22+λβ1(algebra)=argminβ12β^OLSβ22+nλβ1(defn.)=proxnλ1(β^OLS)(takes some work)=Snλ(β^OLS),
\ end {संरेखित करें}} जहाँ एक फ़ंक्शन के समीपस्थ संचालक है और सॉफ्ट थ्रेसहोल्ड राशिproxffSαα

यह एक व्युत्पत्ति है जो प्रॉक्सिमल ऑपरेटर के विस्तृत व्युत्पत्ति को रोकती है जो कार्डिनल काम करता है, लेकिन, मुझे उम्मीद है, मुख्य चरणों को स्पष्ट करता है जो एक बंद रूप को संभव बनाते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.