लसो वैरिएबल चयन क्यों प्रदान करता है?


75

मैं स्टैटिस्टिकल लर्निंग के एलीमेंट्स पढ़ रहा हूं, और मैं जानना चाहूंगा कि लास्सो वेरिएबल सेलेक्शन और रिज रिग्रेशन क्यों नहीं देता।

दोनों विधियाँ वर्गों के अवशिष्ट योग को कम करती हैं और पैरामीटर के संभावित मूल्यों पर एक बाधा होती हैं । लास्सो के लिए, बाधा है , जबकि रिज के लिए यह , कुछ ।β||β||1t||β||2tt

मैंने पुस्तक में हीरे बनाम दीर्घवृत्त चित्र को देखा है और मुझे कुछ अंतर्ज्ञान है कि क्यों लास्सो विवश क्षेत्र के कोनों को मार सकता है, जिसका अर्थ है कि गुणांक में से एक शून्य पर सेट है। हालांकि, मेरा अंतर्ज्ञान कमजोर है, और मैं आश्वस्त नहीं हूं। यह देखना आसान होना चाहिए, लेकिन मुझे नहीं पता कि यह सच क्यों है।

तो मुझे लगता है मैं एक गणितीय औचित्य, या क्यों वर्गों का अवशिष्ट राशि की रूपरेखा के कोनों हिट होने की संभावना है की एक सहज ज्ञान युक्त स्पष्टीकरण के लिए देख रहा हूँ विवश क्षेत्र (जबकि इस स्थिति यदि संभावना नहीं है बाधा है )||β||1||β||2


नीचे दिए गए सभी उत्तर अच्छी व्याख्याएं हैं। लेकिन मैंने दृश्य प्रतिनिधित्व के साथ एक लेख रखा। पीछा कर रहा है लिंक medium.com/@vamsi149/...
solver149

जवाबों:


70

आइए एक बहुत ही सरल मॉडल पर विचार करें: , जिसमें L1 पे पर जुर्माना और पर कम से कम-वर्ग हानि फ़ंक्शन है । हम निम्न के रूप में अभिव्यक्त होने के लिए अभिव्यक्ति का विस्तार कर सकते हैं:y=βx+eβ^e^

minyTy2yTxβ^+β^xTxβ^+2λ|β^|

आइए मान लें कि सबसे कम-वर्ग समाधान कुछ , जो उस को मानने के बराबर है , और देखें कि क्या होता है जब हम L1 जुर्माना जोड़ते हैं। साथ , , इसलिए जुर्माना शब्द बराबर है । ऑब्जेक्टिव फंक्शन की व्युत्पत्ति wrt है:β^>0yTx>0β^>0|β^|=β^2λββ^

2yTx+2xTxβ^+2λ

जिसका स्पष्ट रूप से समाधान । β^=(yTxλ)/(xTx)

जाहिर है में वृद्धि से हम ड्राइव कर सकते हैं शून्य करने के लिए (कम से )। हालाँकि, एक बार , बढ़ते इसे नकारात्मक ड्राइव नहीं करेगा, क्योंकि, शिथिल लेखन, तत्काल नकारात्मक हो जाता है, उद्देश्य फ़ंक्शन के व्युत्पन्न में बदल जाता है:λβ^λ=yTxβ^=0λβ^

2yTx+2xTxβ^2λ

जहां पेनल्टी टर्म की प्रकृति के पूर्ण मान के कारण के साइन में फ्लिप होता है ; जब नकारात्मक हो जाता है, तो दंड शब्द बराबर हो जाता है , और व्युत्पन्न wrt परिणाम । इससे समाधान , जो स्पष्ट रूप से साथ असंगत है (यह देखते हुए कि सबसे कम वर्ग समाधान , जिसका अर्थ है , औरλβ2λββ2λβ^=(yTx+λ)/(xTx)β^<0>0yTx>0λ>0)। L1 पेनल्टी में वृद्धि हुई है और स्क्वेर्ड एरर टर्म में वृद्धि हुई है (जैसा कि हम कम से कम वर्गों के समाधान से आगे बढ़ रहे हैं) से तक चलते हुए को आगे बढ़ा रहे हैं , इसलिए हम नहीं, हम बस छड़ी पर ।β^0<0β^=0

यह स्पष्ट रूप से स्पष्ट होना चाहिए वही तर्क लागू होता है, जो उचित संकेत परिवर्तनों के साथ, कम से कम वर्गों के समाधान के लिए । β^<0

कम से कम वर्ग पेनल्टी के साथ , हालांकि, व्युत्पन्न हो जाता है:λβ^2

2yTx+2xTxβ^+2λβ^

जिसका स्पष्ट रूप से समाधान । जाहिर है कि में कोई वृद्धि शून्य के लिए यह सब नहीं चलाएगी। इसलिए L2 पेनल्टी कुछ हल्के एड-हॉकरी के बिना एक वैरिएबल सेलेक्शन टूल के रूप में कार्य नहीं कर सकती है, जैसे "पैरामीटर अनुमान शून्य के बराबर सेट अगर यह से कम है "। β^=yTx/(xTx+λ)λϵ

जब आप मल्टीवेरेट मॉडल में जाते हैं, तो स्पष्ट रूप से चीजें बदल सकती हैं, उदाहरण के लिए, एक पैरामीटर अनुमान के चारों ओर घूमना एक दूसरे को संकेत बदलने के लिए मजबूर कर सकता है, लेकिन सामान्य सिद्धांत समान है: L2 जुर्माना फ़ंक्शन आपको शून्य करने के लिए सभी तरह से नहीं मिल सकता है, क्योंकि, बहुत ही न्यायिक रूप से लिखते हुए, यह प्रभाव के लिए अभिव्यक्ति के" हर "में जुड़ जाता है , लेकिन L1 दंड कार्य कर सकता है, क्योंकि यह" अंश "में जुड़ता है। β^


क्या Lasso गैर-रेखीय मॉडल, जैसे NN के मामले में सुविधा चयन भी प्रदान करता है?
इल्या

एक छोटा सा अनुवर्ती प्रश्न: कैसे हो सकता है अगर हो सकता है यदि एक सदिश राशि है और एक अदिश राशि है जिसे हम फिट खोजने के लिए अलग-अलग हो सकते हैं? λ=yTxyTxλ
जकातेरिना कोकत्जुहा

मैं एक univariate उदाहरण का उपयोग कर रहा था, इसलिए एक अदिश राशि है। यदि आप एक बहुभिन्नरूपी समस्या को हल कर रहे हैं, तो लंबाई के साथ एक सदिश गुणक से गुणा हो जाता है = of या उचित आकार के पहचान मैट्रिक्स, जिसके आधार पर समस्या हल हो रही है। आप इस बात पर ध्यान दे सकते हैं कि, उदाहरण के लिए, कि L2- मान का = , और उपरोक्त सूत्रों में प्रतिस्थापन बना । yTxλβzzTIz
जूलमैन

क्या यह दिखाना संभव होगा (गणितीय रूप से?) लैंबडा का संकेत दंड कार्य की पूर्ण प्रकृति के कारण कैसे फ़्लिप करता है क्योंकि मैं इस तर्क का थोड़ा भी पालन करने में असमर्थ हूं।
user1420372

@ user1420372 - किया है; आप क्या सोचते हैं मुझे बताओ।
jbowman

9

मान लें कि हमारे पास y = 1 और x = [1/10 1/10] (एक डेटा बिंदु, दो विशेषताएं) के साथ एक डेटा सेट है। एक उपाय यह है कि दोनों में से कोई एक विशेषता चुन ली जाए, दूसरी विशेषता यह है कि दोनों सुविधाओं को वज़न दिया जाए। यानी हम या तो w = [५ ५] या w = [१० ०] उठा सकते हैं।

ध्यान दें कि L1 मानक के लिए दोनों में एक ही जुर्माना है, लेकिन अधिक फैले हुए वजन में L2 मानदंड के लिए कम जुर्माना है।


8

मुझे लगता है कि पहले से ही उत्कृष्ट एवर्स हैं लेकिन ज्यामितीय व्याख्या के संबंध में कुछ अंतर्ज्ञान जोड़ने के लिए:

"लैस्सो संकोचन करता है , ताकि बाधा में" कोने "हों, जो दो आयामों में एक हीरे से मेल खाती हैं। यदि वर्गों का योग इन कोनों में से एक को" हिट '' करता है, तो अक्ष के अनुरूप गुणांक सिकुड़ जाता है। शून्य करने के लिए।L1

जैसे ही बढ़ता है, बहुआयामी हीरे में कोनों की संख्या बढ़ जाती है, और इसलिए यह बहुत अधिक संभावना है कि कुछ गुणांक शून्य के बराबर सेट होंगे। इसलिए, लासो सिकुड़न और (प्रभावी रूप से) सबसे अच्छा चयन करता है।p

उप-चयन के विपरीत, रिज एक नरम थ्रॉल्डिंग करता है: चौरसाई पैरामीटर भिन्न होने के कारण, अनुमानों का नमूना पथ निरंतर शून्य हो जाता है। "

स्रोत: https://onlinecourses.science.psu.edu/stat857/book/export/html/7

प्रभाव को अच्छी तरह से देखा जा सकता है जहां रंगीन रेखाएं शून्य की ओर सिकुड़ने वाले प्रतिगमन गुणांक के मार्ग हैं।

यहाँ छवि विवरण दर्ज करें

"रिज प्रतिगमन शून्य की ओर सभी प्रतिगमन गुणांक को सिकोड़ता है; लास्सो शून्य प्रतिगमन गुणांकों का एक सेट देता है और विरल समाधान की ओर जाता है।"

यहाँ छवि विवरण दर्ज करें

स्रोत: https://onlinecourses.science.psu.edu/stat857/node/158

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.