मेरे पास पहले से ही रिज रिग्रेशन और LASSO के पेशेवरों और विपक्षों के बारे में एक विचार है।
LASSO के लिए, L1 पेनल्टी शब्द एक विरल गुणांक वेक्टर निकलेगा, जिसे फीचर चयन विधि के रूप में देखा जा सकता है। हालाँकि, LASSO के लिए कुछ सीमाएँ हैं। यदि सुविधाओं में उच्च सहसंबंध है, तो LASSO केवल उनमें से एक का चयन करेगा। इसके अलावा, समस्याओं के लिए जहां > , LASSO अधिकांश मापदंडों पर चयन करेगा ( और क्रमशः टिप्पणियों और मापदंडों की संख्या है)। ये रिजोस रिग्रेशन की तुलना में LASSO को आनुभविक रूप से एक उपप्रयोगीय विधि बनाते हैं।n n n पी
रिज रिग्रेशन के लिए, यह सामान्य रूप से बेहतर भविष्यवाणी करता है। हालाँकि, इसकी व्याख्या LASSO जितनी अच्छी नहीं है।
उपरोक्त विवेचन अक्सर पाठ्यपुस्तकों में मशीन लर्निंग / डाटा माइनिंग में पाया जा सकता है। हालाँकि, मैं अभी भी दो चीजों को लेकर उलझन में हूँ:
यदि हम फ़ीचर रेंज (0 और 1 के बीच या शून्य माध्य और इकाई विचरण के साथ कहते हैं) और रिज रिग्रेशन को सामान्य करते हैं, तो हम अभी भी गुणांक के निरपेक्ष मानों को छाँटकर फ़ीचर महत्व का अंदाज़ा लगा सकते हैं (सबसे महत्वपूर्ण विशेषता है) गुणांक के उच्चतम निरपेक्ष मूल्य)। हालांकि हम स्पष्ट रूप से सुविधाओं का चयन नहीं कर रहे हैं, लेकिन रिजैक्ट रिग्रेशन का उपयोग करके व्याख्याशीलता खो नहीं जाती है। उसी समय, हम अभी भी उच्च भविष्यवाणी शक्ति प्राप्त कर सकते हैं। फिर हमें LASSO की आवश्यकता क्यों है? क्या मुझसे कोई चूक हो रही है?
क्या LASSO को इसकी सुविधा चयन प्रकृति के कारण पसंद किया गया है? मेरी समझ में, जिन कारणों से हमें फीचर चयन की आवश्यकता है, वे सामान्यीकरण और गणना में आसानी की क्षमता हैं।
गणना में आसानी के लिए, हम अपने मॉडल में सभी 1 मिलियन सुविधाओं को खिलाना नहीं चाहते हैं यदि हम कुछ एनएलपी कार्य कर रहे हैं, तो हम कम्प्यूटेशनल लागत को कम करने के लिए कुछ स्पष्ट रूप से बेकार सुविधाओं को छोड़ देते हैं। हालांकि, LASSO के लिए, हम केवल अपने मॉडल में सभी डेटा को फीड करने के बाद सुविधा चयन परिणाम (विरल वेक्टर) को जान सकते हैं, इसलिए हम कम्प्यूटेशनल लागत को कम करने के मामले में LASSO से लाभ नहीं लेते हैं। हम भविष्यवाणी को थोड़ा तेज कर सकते हैं क्योंकि अब हम केवल अनुमानित परिणामों को उत्पन्न करने के लिए अपने मॉडल में सुविधाओं के सबसेट (1 मिलियन में से 500 कहते हैं) को खिलाते हैं।
यदि LASSO को सामान्य बनाने की क्षमता के लिए पसंद किया जाता है, तो हम रिज प्रतिगमन (या किसी अन्य प्रकार के नियमितीकरण) का उपयोग करके भी समान लक्ष्य प्राप्त कर सकते हैं। हमें फिर से LASSO (या लोचदार जाल) की आवश्यकता क्यों है? हम सिर्फ रिज रिग्रेशन पर क्यों नहीं टिक सकते?
क्या कोई इस पर कुछ प्रकाश डाल सकता है? धन्यवाद!