खमीर-कोण प्रतिगमन बनाम लैस्सो


39

कम-से-कम रेगुलराइजेशन पाथ (जब एक कोरिसेन्ट क्रॉस जीरो को छोड़कर) समान हो, तो लिस्ट-एंगल रिग्रेशन और लैस्सो बहुत समान रेग्युलराइजेशन पाथ उत्पन्न करते हैं।

वे दोनों लगभग समान एल्गोरिदम द्वारा कुशलतापूर्वक फिट हो सकते हैं।

क्या कभी कोई व्यावहारिक कारण है कि एक विधि को दूसरे पर पसंद किया जाए?


यदि आप इस बिंदु पर उत्तर देते हैं, तो क्या आप एक अलग "स्वीकृत" उत्तर चुनेंगे?
एरोन हॉल

जवाबों:


13

"नो लंच" प्रमेयों से पता चलता है कि सांख्यिकीय अनुमानों के एल्गोरिदम के बीच कोई प्राथमिकता-प्राथमिकताएं नहीं हैं, अर्थात क्या LARS या LASSO सबसे अच्छा काम करता है, यह विशेष डेटासेट की प्रकृति पर निर्भर करता है। व्यवहार में तो, दोनों को आज़माना सबसे अच्छा है और सामान्यीकरण प्रदर्शन के कुछ विश्वसनीय अनुमानक का उपयोग करके यह तय करना है कि किस ऑपरेशन में उपयोग करना है (या एक कलाकारों की टुकड़ी का उपयोग करना है)। जैसा कि LARS और LASSO के बीच का अंतर बल्कि मामूली है, प्रदर्शन में अंतर के रूप में अच्छी तरह से मामूली होने की संभावना है, लेकिन सामान्य तौर पर यह सुनिश्चित करने के लिए केवल एक ही तरीका है!


क्या आप इस विशेष मामले में संभावित 'कलाकारों की टुकड़ी' पर विस्तार कर सकते हैं?
chl

35

जब चरण-वार मोड में उपयोग किया जाता है, तो एलएआरएस एल्गोरिथ्म एक लालची विधि है जो एक सुसंगत सुसंगत अनुमानक नहीं देता है (दूसरे शब्दों में, जब आप नमूनों की संख्या बढ़ाते हैं तो यह एक स्थिर परिणाम में परिवर्तित नहीं होता है)।

इसके विपरीत, LASSO (और इस प्रकार LARS मोड में उपयोग किए जाने पर LARS एल्गोरिथ्म) उत्तल फिटिंग की समस्या को हल करता है। विशेष रूप से, इस समस्या (एल 1 दंडित रैखिक अनुमानक) में बहुत अच्छे सिद्ध गुण (संगतता, स्पार्सिस्टेंसी) हैं।

इस प्रकार मैं LARS को हमेशा LASSO मोड में उपयोग करने का प्रयास करूँगा (या LASSO के लिए किसी अन्य सॉल्वर का उपयोग करूँगा), जब तक कि आपके पास चरण-वार पसंद करने के लिए बहुत अच्छे कारण न हों।


9

LASSO प्रति एल्गोरिथम नहीं है, लेकिन एक ऑपरेटर है।

नियमित समस्याओं के लिए कुशल एल्गोरिदम प्राप्त करने के कई अलग-अलग तरीके हैं । उदाहरण के लिए, कोई व्यक्ति सीधे उनसे निपटने के लिए द्विघात प्रोग्रामिंग का उपयोग कर सकता है। मुझे लगता है कि यह वही है जिसे आप LASSO कहते हैं।1

एक और लार्स है, जो अपनी सादगी के कारण बहुत लोकप्रिय है, आगे की प्रक्रियाओं के साथ संबंध (अभी भी लालची नहीं है), बहुत रचनात्मक प्रमाण और आसान सामान्यीकरण।

यहां तक ​​कि कला द्विघात प्रोग्रामिंग सॉल्वर की स्थिति की तुलना में, LARS अधिक कुशल हो सकता है।


9

जैसा कि पहले उल्लेख किया गया है, लस्सो समस्या को हल करने के लिए एक विशेष विधि है, अर्थात -अनुरूपित न्यूनतम वर्ग समस्या। इसकी सफलता इस तथ्य से उपजी है कि इसके लिए मानक न्यूनतम-वर्ग प्रतिगमन के समान एक विषम प्रयास की आवश्यकता है, और इस प्रकार एक द्विघात प्रोग्रामिंग समस्या के समाधान के लिए आवश्यक से अधिक बेहतर प्रदर्शन है। बाद के विस्तारों ने अधिक सामान्य लोचदार-नेट समस्या को भी जहां आप और अनियमितकरण शर्तों का योग न्यूनतम-वर्ग में शामिल करते हैं।एल 1 एल 2l1l1l2

इस उत्तर का अभिप्राय यह है कि आजकल LARS को समन्वित-वंश और स्टोचस्टिक समन्वय-वंश विधि द्वारा सुपरसाइड किया गया लगता है । ये विधियां विशेष रूप से सरल एल्गोरिदम पर आधारित हैं, जबकि एक ही समय में प्रदर्शन LARS (अक्सर एक या दो तीव्रता के आदेश) की तुलना में अधिक होता है। उदाहरण के लिए फ्राइडमैन एट अल का यह पेपर देखें ।

इसलिए, यदि आप लार्स को लागू करने की योजना बनाते हैं, तो न करें। समन्वय-वंश का उपयोग करें जो कुछ घंटे लगते हैं।


1
LARS को लागू नहीं करने के लिए +1 लेकिन डिसेंट को कोऑर्डिनेट करने के लिए: इसमें ऐसी सेटिंग्स होती हैं जहाँ यह कॉर्डिनेट डिसेंट की तुलना में बेहतर होता है (उदाहरण के लिए छोटी और मध्यम आकार की समस्याओं के लिए जो बहुत विरल होती हैं, एम्पायर की तुलना के लिए जूलियन मैरल की थीसिस देखें), लेकिन यह है बहुत कठिन सही को लागू करने के लिए, बहुत मुश्किल से समन्वित वंश है।
गेल वरक्वाउक्स

3

लैस्सो समाधानों की गणना एक द्विघात प्रोग्रामिंग समस्या है, और मानक संख्यात्मक विश्लेषण एल्गोरिदम से निपटा जा सकता है। लेकिन कम से कम कोण प्रतिगमन प्रक्रिया एक बेहतर दृष्टिकोण है। यह एल्गोरिथ्म लासो समस्या की विशेष संरचना का शोषण करता है, और सभी मूल्यों के लिए एक साथ समाधान की गणना करने का एक कुशल तरीका प्रदान करता है ।λ


यहाँ मेरी राय है:

आपके प्रश्न को दो भागों में विभाजित किया जा सकता है। उच्च आयामी मामलों और कम आयामी मामलों। दूसरी ओर यह इस बात पर निर्भर करता है कि आप इष्टतम मॉडल के चयन के लिए किन मानदंडों का उपयोग करने जा रहे हैं। के मूल पेपर में, यह सर्वश्रेष्ठ मॉडल का चयन करने के लिए मानदंड साबित है और साथ ही आप पेपर के 'डिस्कशन' में SVS और CV मानदंड भी देख सकते हैं। आम तौर पर, LARS और Lasso के बीच छोटे अंतर होते हैं और पूरी तरह से अनदेखा किया जा सकता है।Cp

इसके अलावा LARS कम्प्यूटेशनल रूप से तेज और विश्वसनीय है। लासो तेज है लेकिन एल्गोरिथ्म के बीच एक छोटा सा अंतर है जो LARS को गति चुनौती जीतने का कारण बनता है। दूसरी ओर आर में उदाहरण के लिए वैकल्पिक पैकेज हैं, जिन्हें 'ग्लमेनेट' कहा जाता है जो लार्स पैकेज की तुलना में अधिक विश्वसनीय हैं (क्योंकि यह अधिक सामान्य है)।

योग करने के लिए, कुछ भी महत्वपूर्ण नहीं है जिसे लार्स और लासो के बारे में माना जा सकता है। यह उस संदर्भ पर निर्भर करता है जिसे आप मॉडल का उपयोग करने जा रहे हैं।

मैं व्यक्तिगत रूप से उच्च और निम्न दोनों आयामी मामलों में आर में ग्लमैनेट का उपयोग करने की सलाह देता हूं। या यदि आप विभिन्न मानदंडों में रुचि रखते हैं, तो आप http://cran.r-project.org/web/packages/msgps/ पैकेज का उपयोग कर सकते हैं ।


0

कुछ संदर्भों में कम से कम वर्गों के समाधान का एक नियमित संस्करण बेहतर हो सकता है। LASSO (कम से कम पूर्ण संकोचन और चयन ऑपरेटर) एल्गोरिथ्म, उदाहरण के लिए, बाधा के साथ एक कम से कम वर्ग समाधान पाता है कि | β | 1, पैरामीटर वेक्टर का L1- मान, दिए गए मान से अधिक नहीं है। समान रूप से, यह α के साथ कम से कम वर्गों के जुर्माना का एक असंबंधित निराकरण हल कर सकता है β | 1 को जोड़ा गया, जहां α एक स्थिरांक है (यह विवश समस्या का लैग्रैजियन रूप है।) द्विघात प्रोग्रामिंग या अधिक सामान्य उत्तल अनुकूलन विधियों का उपयोग करके इस समस्या को हल किया जा सकता है, साथ ही विशिष्ट एल्गोरिदम जैसे कम से कम कोण अभिव्यक्ति एल्गोरिथ्म। L1- नियमित रूप से तैयार किया जाना कुछ संदर्भों में उपयोगी है, क्योंकि कम गैर-पैरामीटर पैरामीटर मानों के साथ समाधान पसंद करने की प्रवृत्ति के कारण, प्रभावी रूप से उन चर की संख्या को कम करना, जिन पर दिए गए समाधान निर्भर हैं। [११] इस कारण से, LASSO और इसके वेरिएंट कंप्रेस्ड सेंसिंग के क्षेत्र के लिए मूलभूत हैं।


5
सम्मान के साथ, यह विकिपीडिया से एक प्रत्यक्ष कॉपी-एंड-पेस्ट जैसा दिखता है, और वास्तव में इस सवाल का जवाब नहीं देता है।
एनपीई

3
(-1) बहुत कम से कम, आपको विकिपीडिया से उद्धरण स्वीकार करना चाहिए, At LASSO पद्धति पर en.wikipedia.org/wiki/Least_squares !!! BTW आप 11 वें संदर्भ को चिपकाना भूल गए।
chl

मैं लिंक डालना भूल गया, यह सच है, लेकिन वैसे भी मुझे लगता है कि इस सवाल का एक अच्छा जवाब है। क्षमा करें, अगर मुझे लगता है कि मुझे लगता है कि मैंने लिखा है
मरिआना नोफ़र

उस मामले में द लैसो पेज को संदर्भित करना अधिक सहायक होगा । अब, सवाल लार और लासो के पेशेवरों और विपक्षों के बारे में है, न कि इस बारे में कि लस्सो वास्तव में क्या करता है। LARS एल्गोरिथ्म को आसानी से अन्य अनुमानकों के लिए समाधान तैयार करने के लिए संशोधित किया जा सकता है, जैसे कि लासो; यह मामले में अच्छी तरह से काम करता है , लेकिन यह शोर के प्रभावों के प्रति संवेदनशील है (क्योंकि यह अवशिष्ट के पुनरावृत्ति पर आधारित है), जैसा कि scikit-learn.sourceforge.net/modules/glm.html से उद्धृत किया गया है।np
chl
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.