रिज रिग्रेशन LASSO की तुलना में बेहतर व्याख्यात्मकता क्यों नहीं प्रदान कर सकता है?


13

मेरे पास पहले से ही रिज रिग्रेशन और LASSO के पेशेवरों और विपक्षों के बारे में एक विचार है।

LASSO के लिए, L1 पेनल्टी शब्द एक विरल गुणांक वेक्टर निकलेगा, जिसे फीचर चयन विधि के रूप में देखा जा सकता है। हालाँकि, LASSO के लिए कुछ सीमाएँ हैं। यदि सुविधाओं में उच्च सहसंबंध है, तो LASSO केवल उनमें से एक का चयन करेगा। इसके अलावा, समस्याओं के लिए जहां > , LASSO अधिकांश मापदंडों पर चयन करेगा ( और क्रमशः टिप्पणियों और मापदंडों की संख्या है)। ये रिजोस रिग्रेशन की तुलना में LASSO को आनुभविक रूप से एक उपप्रयोगीय विधि बनाते हैं।n n n पीpnnnp

रिज रिग्रेशन के लिए, यह सामान्य रूप से बेहतर भविष्यवाणी करता है। हालाँकि, इसकी व्याख्या LASSO जितनी अच्छी नहीं है।

उपरोक्त विवेचन अक्सर पाठ्यपुस्तकों में मशीन लर्निंग / डाटा माइनिंग में पाया जा सकता है। हालाँकि, मैं अभी भी दो चीजों को लेकर उलझन में हूँ:

  1. यदि हम फ़ीचर रेंज (0 और 1 के बीच या शून्य माध्य और इकाई विचरण के साथ कहते हैं) और रिज रिग्रेशन को सामान्य करते हैं, तो हम अभी भी गुणांक के निरपेक्ष मानों को छाँटकर फ़ीचर महत्व का अंदाज़ा लगा सकते हैं (सबसे महत्वपूर्ण विशेषता है) गुणांक के उच्चतम निरपेक्ष मूल्य)। हालांकि हम स्पष्ट रूप से सुविधाओं का चयन नहीं कर रहे हैं, लेकिन रिजैक्ट रिग्रेशन का उपयोग करके व्याख्याशीलता खो नहीं जाती है। उसी समय, हम अभी भी उच्च भविष्यवाणी शक्ति प्राप्त कर सकते हैं। फिर हमें LASSO की आवश्यकता क्यों है? क्या मुझसे कोई चूक हो रही है?

  2. क्या LASSO को इसकी सुविधा चयन प्रकृति के कारण पसंद किया गया है? मेरी समझ में, जिन कारणों से हमें फीचर चयन की आवश्यकता है, वे सामान्यीकरण और गणना में आसानी की क्षमता हैं।

    गणना में आसानी के लिए, हम अपने मॉडल में सभी 1 मिलियन सुविधाओं को खिलाना नहीं चाहते हैं यदि हम कुछ एनएलपी कार्य कर रहे हैं, तो हम कम्प्यूटेशनल लागत को कम करने के लिए कुछ स्पष्ट रूप से बेकार सुविधाओं को छोड़ देते हैं। हालांकि, LASSO के लिए, हम केवल अपने मॉडल में सभी डेटा को फीड करने के बाद सुविधा चयन परिणाम (विरल वेक्टर) को जान सकते हैं, इसलिए हम कम्प्यूटेशनल लागत को कम करने के मामले में LASSO से लाभ नहीं लेते हैं। हम भविष्यवाणी को थोड़ा तेज कर सकते हैं क्योंकि अब हम केवल अनुमानित परिणामों को उत्पन्न करने के लिए अपने मॉडल में सुविधाओं के सबसेट (1 मिलियन में से 500 कहते हैं) को खिलाते हैं।

    यदि LASSO को सामान्य बनाने की क्षमता के लिए पसंद किया जाता है, तो हम रिज प्रतिगमन (या किसी अन्य प्रकार के नियमितीकरण) का उपयोग करके भी समान लक्ष्य प्राप्त कर सकते हैं। हमें फिर से LASSO (या लोचदार जाल) की आवश्यकता क्यों है? हम सिर्फ रिज रिग्रेशन पर क्यों नहीं टिक सकते?

क्या कोई इस पर कुछ प्रकाश डाल सकता है? धन्यवाद!


3
ये रिजोस रिग्रेशन की तुलना में LASSO को आनुभविक रूप से एक उपप्रयोगीय विधि बनाते हैं। मैं असहमत हूं। मुझे नहीं लगता कि भविष्यवाणी के संदर्भ में LASSO आमतौर पर रिज की तुलना में बदतर (या बेहतर) है। जैसा कि @jona उनके जवाब में कहता है, आप उन स्थितियों का सामना कर सकते हैं जहां कुछ विशेषता वास्तव में मॉडल से संबंधित नहीं हैं, और फिर LASSO उन्हें किक करने के लिए अधिक प्रभावी होगा। हालांकि, रिज के साथ सभी सुविधाओं को शामिल किया जाएगा और अप्रासंगिक भविष्यवाणियों को दूषित करेगा। इसलिए हमें लोचदार जाल की आवश्यकता है - डेटा को और के उपयुक्त संयोजन को तय करने के लिए । एल 2L1L2
रिचर्ड हार्डी

3
मुझे यह भी आश्चर्य है कि कौन सी पाठ्यपुस्तकें रिज रिग्रेशन के लिए कहती हैं , यह सामान्य रूप से बेहतर पूर्वानुमानशीलता प्रदान करता है (LASSO के विपरीत, मैं समझता हूं, अप्रतिबंधित प्रतिगमन के विपरीत नहीं)। शायद सामान्य नहीं है कि उनके उपयोग में सामान्य है। इसके अलावा, उपज के लिए नियमितीकरण के तरीकों की कितनी व्याख्या की जाती है? (इसके अलावा, श्मुइली "समझाने या भविष्यवाणी करने के लिए" (2010) एक अच्छा टुकड़ा है, भले ही सीधे संबंधित नहीं है।)
रिचर्ड हार्डी

1
@ रीचर्डहार्डी, आप सही कह रहे हैं। अब मैंने पाठ्यपुस्तक को और ध्यान से पढ़ा और पाया कि " न तो रिज रिग्रेशन और न ही लैस्सो सार्वभौमिक रूप से दूसरे पर हावी होगा " पृष्ठ 223 पर, आर में एप्लीकेशन के साथ सांख्यिकीय सीखने का एक परिचय , गैरेथ जेम्स एट अल
ब्रैड ली

@ रीचर्डहार्डी, मूल रूप से मुझे LIBLINEAR पर L1- नियमितीकरण के लिए इसी तरह के तर्क मिले: csie.ntu.edu.tw/~cjlin/liblinear/…
ब्रैड ली

एक वास्तविक उदाहरण पर रिज और लास्सो के रन या दो मतभेदों को स्पष्ट करेंगे? (लेकिन वे तुलना करने के लिए आसान नहीं हैं - प्लॉट फिट बनाम स्पार्सिटी?)
डेनिस

जवाबों:


16
  1. आप आदेश तो 1 लाख रिज सिकुड़, बढ़ाया है, लेकिन गैर शून्य सुविधाओं, आप निर्णय किसी तरह करना होगा: आप देखेंगे n सबसे अच्छा भविष्यवक्ताओं, लेकिन क्या है n ? LASSO इस समस्या को एक रियायती, उद्देश्यपूर्ण तरीके से हल करता है, क्योंकि पथ पर हर कदम के लिए (और अक्सर, आप एक बिंदु पर उदाहरण के लिए जैसे क्रॉस सत्यापन) से निपटेंगे, केवल मी गुणांक हैं जो गैर-शून्य हैं।

  2. बहुत बार, आप कुछ डेटा पर मॉडल को प्रशिक्षित करेंगे और फिर बाद में इसे एकत्र किए गए कुछ डेटा पर लागू करेंगे। उदाहरण के लिए, आप अपने मॉडल को 50.000.000 ईमेल पर फिट कर सकते हैं और फिर हर नए ईमेल पर उस मॉडल का उपयोग कर सकते हैं। सच है, आप इसे पहले 50.000.000 मेल के लिए पूर्ण सुविधा सेट पर फिट करेंगे, लेकिन प्रत्येक निम्नलिखित ईमेल के लिए, आप एक बहुत विरल और तेज़, और बहुत अधिक मेमोरी कुशल, मॉडल के साथ व्यवहार करेंगे। आपको गिराए गए फीचर्स के लिए जानकारी एकत्र करने की भी आवश्यकता नहीं होगी, जो कि जीनोटाइपिंग के माध्यम से निकालने के लिए महंगे हो सकते हैं, जैसे कि फीचर्स महंगे हैं।

एंड्रयू जेलमैन द्वारा उजागर की गई L1 / L2 समस्या पर एक और परिप्रेक्ष्य यह है कि आपको अक्सर कुछ अंतर्ज्ञान होता है कि आपकी समस्या क्या हो सकती है। कुछ परिस्थितियों में, यह संभव है कि वास्तविकता वास्तव में विरल है। हो सकता है कि आपने लाखों जीनों को मापा हो, लेकिन यह प्रशंसनीय है कि उनमें से केवल 30.000 वास्तव में डोपामाइन चयापचय का निर्धारण करते हैं। ऐसी स्थिति में, L1 यकीनन समस्या को बेहतर ढंग से फिट करता है।
अन्य मामलों में, वास्तविकता घनी हो सकती है। उदाहरण के लिए, मनोविज्ञान में, "सब कुछ के साथ (कुछ हद तक) सहसंबंधी है" (पॉल मेहाल)। बनाम संतरे सेब के लिए प्राथमिकताएं शायद करता है किसी भी तरह राजनीतिक झुकाव के साथ संबंध स्थापित - और यहां तक कि बुद्धि के साथ। नियमितीकरण अभी भी यहाँ समझ में आता है, लेकिन सही शून्य प्रभाव दुर्लभ होना चाहिए, इसलिए L2 अधिक उपयुक्त हो सकता है।


धन्यवाद। आपका स्पष्टीकरण बहुत स्पष्ट है! मैं अभी भी रिज की व्याख्या के बारे में थोड़ा भ्रमित हूं। क्या मैं उनके पूर्ण मूल्यों के आधार पर चर को छाँटकर फीचर महत्व को परिभाषित कर सकता हूँ? उदाहरण के लिए, यदि हम रिज का उपयोग करके निम्नलिखित परिणाम प्राप्त करते हैं, तो हम फ़ीचर महत्व के संदर्भ में कह सकते हैं। , यह देखते हुए कि हम पहले से ही सीमा के भीतर सुविधाओं को सामान्य करते हैं । इसलिए हम अभी भी रिज का उपयोग करके व्याख्यात्मकता प्राप्त कर सकते हैं। x 2 > x 1 > x 3 [ 0 , 1 ]
y=2x1+3x2x3
x2>x1>x3[0,1]
ब्रैड ली

बेशक आप उन्हें छांट सकते हैं, लेकिन आपको अभी भी कुछ ऐसा निर्णय लेना होगा कि आप उनमें से किस उपसमुदाय को देखें।
जॉना

6
वाक्यांश का दूसरा तरीका यह होगा: रिज सुविधा चयन में मदद कर सकता है , LASSO सुविधा चयन करता है
Jona

1
@ ब्रैड, जोना (+1) द्वारा उत्कृष्ट उत्तर के अलावा, ध्यान दें कि इसके मानकीकृत प्रतिगमन गुणांक द्वारा फीचर महत्व को देखते हुए एक संभव दृष्टिकोण है, लेकिन केवल एक ही नहीं; "विशेषता महत्व" के विभिन्न उपाय हैं और वे आसानी से विरोधाभासी परिणाम दे सकते हैं। इस धागे को एक लंबी चर्चा के लिए देखें: सांख्यिकी.स्टैकएक्सचेंज . com / questions / 64010
अमीबा

1

यदि लक्ष्य बहुत सारी सुविधाओं पर निर्भर है, तो व्याख्या कम हो जाती है। यह बढ़ जाता है अगर हम सुविधाओं की संख्या कम कर सकते हैं और साथ ही सटीकता बनाए रख सकते हैं। रिज नियमितीकरण में सुविधाओं की संख्या को कम करने की क्षमता नहीं है। लेकिन लसो में क्षमता है। यह कैसे होता है, यह निम्नलिखित लिंक में बताया गया है:

डेटा विज्ञान की ओर लेख पर क्लिक करें

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.