वैरिएबल के लैस्सो-पहचाने गए सबसेट पर ओएलएस अनुमानों पर लास्सो अनुमानों का उपयोग क्यों करें?


26

k β एल एक रों रों = ( β एल एक रों रों 1 , β एल एक रों रों 2 , , β एल एक

L(β)=(Xβy)(Xβy)+λβ1,
kβ^lasso=(β^1lasso,β^2lasso,...,β^klasso,0,...0)

हम जानते हैं कि एक है पक्षपाती अनुमान , इसलिए हम अंतिम समाधान के रूप में अधिक 'वाजिब' के बजाय अभी भी अंतिम समाधान के रूप में लेते हैं । , जहां आंशिक मॉडल L ^ {नया} (\ beta_ {1: k}) = (X_ {1: k} \ beta-y) '(X_ {1: k) से एलएस अनुमान है } \ बीटा-वाई) । ( X_ {1: k} k चयनित सुविधाओं के अनुरूप X के कॉलम को दर्शाता है)।( β 1 , β 2 , , Β कश्मीर ) β एल एक रों रों β एन डब्ल्यू = ((β^1lasso,β^2lasso,...,β^klasso)(β1,β2,...,βk)β^lassoβ^new=(β^1:knew,0,...,0)β^1:knewLnew(β1:k)=(X1:kβy)(X1:kβy)X1:kXk

संक्षेप में, हम केवल चयन के लिए चर चयन के लिए (और ओएलएस के लिए चयनित सुविधाओं पर अनुमान छोड़ने के बजाय) सुविधा चयन के लिए और पैरामीटर आकलन के लिए लास्सो दोनों का उपयोग क्यों करते हैं?

(इसके अलावा, इसका क्या मतलब है कि 'लासो अधिकांश विशेषताओं पर चयन कर सकता है'? नमूना आकार है।)nn


1
यह एक बहुत ही अच्छा सवाल है। क्या आपने यह देखने के लिए कुछ सिमुलेशन की कोशिश की है कि यदि आप इसे अपने तरीके से आजमाएंगे तो मानक लास्सो से परिणाम कितने भिन्न होंगे?
प्लासीडिया

3
क्या आपने LASSO में "संकोचन" के उद्देश्य को समझा?
माइकल एम

6
गुणांक के अनुमानों को ठीक से सिकोड़ने के लिए विचार के कारण आपने सबसे बड़े लोगों को चुना है। जब आपने पहले से फीचर का चयन कर लिया है, तो लिस्ट-स्क्वायर के अनुमान निष्पक्ष नहीं रह जाते हैं।
Scortchi - को पुनः स्थापित मोनिका

2
निम्न प्रश्न के लिए एक महान उत्तर देखें "संकोचन विधियों से क्या समस्या हल होती है?" आंकड़े.stackexchange.com/questions/20295/…
DL Dahly

2
स्पष्ट होने के लिए: @Scortchi कहना गलत नहीं है, लेकिन फीचर चयन की चर्चा करते समय यह एक ग्रे क्षेत्र है, और मुझे लगता है कि यह एक महत्वपूर्ण तकनीकी बिंदु है जिसे बहुत स्पष्ट किया जाना चाहिए।
जॉनए

जवाबों:


27

मुझे विश्वास नहीं है कि चर चयन के लिए LASSO का उपयोग करने और फिर OLS का उपयोग करने में कुछ गड़बड़ है। " सांख्यिकीय शिक्षा के तत्व " (पृष्ठ 91) से

... लास्सो सिकुड़न के कारण गैर-शून्य गुणांक के अनुमान शून्य के प्रति पक्षपाती हो जाते हैं और सामान्य तौर पर वे सुसंगत नहीं होते हैं [ जोड़ा गया नोट: इसका मतलब है कि, जैसा कि नमूना आकार बढ़ता है, गुणांक का अनुमान नहीं जुटता है]इस पूर्वाग्रह को कम करने के लिए एक दृष्टिकोण गैर-शून्य गुणांकों के सेट की पहचान करने के लिए लसो को चलाना है, और फिर सुविधाओं के चयनित सेट में एक गैर-प्रतिबंधित रैखिक मॉडल फिट करना है। यह हमेशा संभव नहीं है, यदि चयनित सेट बड़ा है। वैकल्पिक रूप से, कोई भी गैर-शून्य भविष्यवक्ताओं के सेट का चयन करने के लिए लासो का उपयोग कर सकता है, और फिर फिर से लासो को लागू कर सकता है, लेकिन पहले चरण से केवल चयनित भविष्यवक्ताओं का उपयोग कर सकता है। इसे रिलैक्सिंग लैस्सो के नाम से जाना जाता है(मेन्सहाउसन, 2007)। यह विचार लैसो के लिए प्रारंभिक दंड पैरामीटर का अनुमान लगाने के लिए क्रॉस-सत्यापन का उपयोग करने के लिए है, और फिर एक दूसरे दंड पैरामीटर के लिए पूर्वनिर्धारित भविष्यवक्ताओं के चयनित सेट पर लागू होता है। चूंकि दूसरे चरण में चर शोर चर से "प्रतियोगिता" कम होते हैं, क्रॉस-वैलिडेशन [पेनल्टी पैरामीटर] के लिए एक छोटा मूल्य चुनेंगे , और इसलिए उनके गुणांक प्रारंभिक अनुमान में उन लोगों की तुलना में कम हो जाएंगे।λ

एक और उचित दृष्टिकोण के रूप में आराम से लस्सो में आत्मा के समान, उम्मीदवार भविष्यवक्ता चर के एक समूह की पहचान करने के लिए एक बार (या अग्रानुक्रम में कई बार) लसो का उपयोग करना होगा। तब विचार करने के लिए सबसे अच्छा प्रेडिक्टर वेरिएबल्स का चयन करने के लिए सबसे अच्छा सबसेट सब्मिट रिग्रेशन का उपयोग करें (इसके लिए "सांख्यिकीय लर्निंग के तत्व" भी देखें)। इस काम के लिए, आपको उम्मीदवार के भविष्यवक्ताओं के समूह को लगभग 35 तक परिष्कृत करना होगा, जो हमेशा संभव नहीं होगा। ओवर-फिटिंग को रोकने के लिए आप मानदंड के रूप में क्रॉस-मान्यता या एआईसी का उपयोग कर सकते हैं।


मेरे सवाल का एक और हिस्सा यह है कि 'लास्सो ज्यादातर n फीचर्स में सेलेक्ट क्यों कर सकता है'? यदि ऐसा है, तो मुझे लगता है कि चयनित सुविधाओं पर OLS कम से कम 'अच्छा' होगा, क्योंकि OLS 'BLUE' है (सख्ती से BLUE नहीं क्योंकि यह ज्यादातर पक्षपाती है)। बस एक चरम स्थिति पर विचार करें कि लास्सो बिल्कुल सही सुविधाओं का चयन करता है, इन विशेषताओं पर ओएलएस का संचालन करने से असली मॉडल को बहाल किया जाएगा, जो मुझे लगता है कि लास्सो अनुमान से बेहतर है।
यूलुइगल

2
समस्या यह है कि यह "चरम स्थिति" होने की बहुत संभावना नहीं है, और यह जानने का कोई तरीका नहीं है कि क्या LASSO ने बिल्कुल सही सुविधाओं का चयन किया है। यदि LASSO बहुत अधिक सुविधाओं का चयन करता है, तो मुझे लगता है कि पूर्ण OLS मॉडल LASSO अनुमानों से भी बदतर प्रदर्शन कर सकता है। इसी तरह, रिज रिग्रेशन ओएलएस को बेहतर बना सकता है यदि बहुत अधिक विशेषताएं हैं (यानी ओएलएस ओवरफिट है)।
एलेक्स विलियम्स

2
यह भी देखें कि web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf , धारा 2.2 का अंत: "[...] सबसे कम वर्ग में फिट बैठता है [...] पूर्वसूचक लसो के अनुमान का विस्तार करते हैं शून्य से दूर। लेज़ो से नॉनज़रो का अनुमान शून्य की ओर पक्षपाती है, इसलिए दाहिने पैनल में डिबिसिंग अक्सर मॉडल की भविष्यवाणी की त्रुटि में सुधार कर सकता है। इस दो-चरण की प्रक्रिया को आराम से लसो (Meinshausen 2007) के रूप में भी जाना जाता है। । "
अमीबा का कहना है कि मोनिका

1
मैंने Meinshausen पेपर में देखा और यह वास्तव में दो दंड मापदंडों को फिट करने की सिफारिश करता है, जैसा कि तत्वों से आपके मूल उद्धरण में वर्णित है। +1
अमीबा का कहना है कि मोनिका

@AlexWilliams लेकिन चयनित सेट के बीच सहसंबंध के बारे में पिछले पैराग्राफ में एक स्पार्सिटी धारणा नहीं है और क्या हटाया जा रहा है छोटा है?
दिमित्री वी। मास्टरोव

15

यदि आपका उद्देश्य सैंपल इन-सैंपल प्रदर्शन (आरटी उच्चतम आर-स्क्वेर्ड) है, तो बस हर उपलब्ध चर पर ओएलएस का उपयोग करें। ड्रॉपिंग वैरिएबल में आर-स्क्वेयर कम हो जाएगा।

यदि आपका उद्देश्य सैंपल आउट ऑफ सैंपल परफॉर्मेंस है (जो आमतौर पर बहुत महत्वपूर्ण होता है), तो आपकी प्रस्तावित रणनीति ओवरफिटिंग के दो स्रोतों से ग्रस्त होगी:

  • प्रतिक्रिया चर के साथ सहसंबंधों के आधार पर चर का चयन
  • OLS का अनुमान है

LASSO का उद्देश्य ओवरफिटिंग के दो स्रोतों से ऊपर लड़ने के लिए पैरामीटर अनुमानों को शून्य की ओर सिकोड़ना है। नमूना भविष्यवाणियों हमेशा ओएलएस से भी बदतर होगी, लेकिन आशा है (दंड की ताकत के आधार पर) अधिक यथार्थवादी आउट-ऑफ-सैंपल व्यवहार प्राप्त करने के लिए।

बारे में : यह (संभवतः) उस LASSO के कार्यान्वयन पर निर्भर करता है जिसका आप उपयोग कर रहे हैं। एक प्रकार, लार्स (कम से कम कोण प्रतिगमन), आसानी से p > n के लिए काम करता है ।p>np>n


2
"लीकासो" (हमेशा 10 गुणांक लेने वाले) प्रश्न के प्रस्ताव से अलग है (का अनुमान है कि केएसओ के साथ फिर से अनुमान लगाओ LASSO द्वारा चुना गया है)
Affine

@ आप पूरी तरह से सही हैं। मैंने संदर्भ हटा दिया।
माइकल एम

2
यह उचित लगता है, लेकिन लास्सो के आविष्कारक तर्क देते हैं अन्यथा वास्तव में ओला के साथ दो चरणीय प्रक्रिया का उपयोग करने की सलाह देते हैं लस्सो-पहचाने गए उपसमुच्चय (जैसा कि ओपी द्वारा सुझाया गया है), @ एलेक्स का जवाब देखें।
अमीबा का कहना है कि मोनिका

मुझे यह उत्तर पसंद है क्योंकि यह खोज से ही चयन पूर्वाग्रह का उल्लेख करता है; यह सुनिश्चित करता है कि एक अतिरिक्त जुर्माना होना चाहिए। LASSO के रूप में मात्र सबसेट चयन तंत्र - क्या यह सब है? फिर भी इसके गुणकों का प्रिंट आउट क्यों लें?
बेन ओगोरक

3

क्यों कमंद अधिक से अधिक का चयन कर सकते की ऑप्स सवाल के बारे में एन विशेषताएं:

एक्सटीएक्सβ=(XTX)1XTY । ऐसे मैट्रिक्स का विलोम लेना संभव नहीं है (यह विलक्षण हो सकता है)।

XTX


1
(XTX)1
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.