केवल सुविधा चयन के लिए LASSO का उपयोग करना


10

मेरी मशीन सीखने वर्ग में, हम, कैसे LASSO प्रतिगमन सुविधा चयन प्रदर्शन पर बहुत अच्छा है के बारे में सीखा है, क्योंकि यह का उपयोग करता है है नियमितीकरण।एल1

मेरा प्रश्न: क्या लोग आमतौर पर LASSO मॉडल का उपयोग सिर्फ फीचर चयन के लिए करते हैं (और फिर उन विशेषताओं को एक अलग मशीन लर्निंग मॉडल में डंप करने के लिए आगे बढ़ते हैं), या क्या वे आमतौर पर LASSO का उपयोग फीचर चयन और वास्तविक प्रतिगमन दोनों को करने के लिए करते हैं?

उदाहरण के लिए, मान लें कि आप रिज रिग्रेशन करना चाहते हैं, लेकिन आप मानते हैं कि आपकी कई सुविधाएँ बहुत अच्छी नहीं हैं। क्या LASSO को चलाना बुद्धिमानी होगी, केवल उन विशेषताओं को लेना जो एल्गोरिथम द्वारा निकट-शून्य नहीं की जाती हैं, और फिर अपने डेटा को रिज रिग्रेशन मॉडल में डंप करने में ही उपयोग करते हैं? इस तरह, आपको सुविधा चयन करने के लिए नियमितीकरण का लाभ मिलता है , लेकिन ओवरफिटिंग को कम करने के लिए एल 2 नियमितीकरण का लाभ भी मिलता है। (मुझे पता है कि यह मूल रूप से इलास्टिक नेट रिग्रेशन की मात्रा है, लेकिन ऐसा लगता है कि आपको अंतिम प्रतिगमन उद्देश्य फ़ंक्शन में l 1 और l 2 दोनों शब्दों की आवश्यकता नहीं है ।)एल1एल2एल1एल2

प्रतिगमन के अलावा, क्या यह वर्गीकरण कार्य (SVM, तंत्रिका नेटवर्क, यादृच्छिक वन, आदि) का उपयोग करते समय एक बुद्धिमान रणनीति है?


1
हां, अन्य मॉडलों के लिए फीचर चयन के लिए लासो का उपयोग करना एक अच्छा विचार है। वैकल्पिक रूप से ट्री बेस्ड फीचर सेलेक्शन को अन्य मॉडलों को भी खिलाया जा सकता है
karthikbharadwaj

1
लैस्सो केवल रैखिक मॉडल में सुविधाओं का चयन करता है - यह उच्च-क्रम इंटरैक्शन या भविष्यवाणियों में गैर-शुद्धता के लिए परीक्षण नहीं करता है। उदाहरण के लिए कि यह कैसे महत्वपूर्ण हो सकता है: आंकड़े . stackexchange.com/questions/164048/… आपका माइलेज भिन्न हो सकता है।
साइकोरैक्स का कहना है कि मोनिका

जवाबों:


11

लगभग कोई भी दृष्टिकोण जो मॉडल चयन का कोई रूप है और फिर आगे विश्लेषण करता है जैसे कि कोई मॉडल चयन पहले नहीं हुआ था आमतौर पर खराब अनुपात होता है। जब तक कि वास्तविक नमूना आकारों और फ़ीचर बनाम नमूना आकार अनुपातों के लिए व्यापक सिमुलेशन अध्ययनों से सबूतों द्वारा समर्थित सैद्धांतिक तर्क मजबूर न हों, यह दिखाने के लिए कि यह एक अपवाद है, संभावना है कि इस तरह के दृष्टिकोण में असंतोषजनक गुण होंगे। मुझे इस दृष्टिकोण के लिए ऐसे किसी भी सकारात्मक सबूत के बारे में पता नहीं है, लेकिन शायद कोई और है। यह देखते हुए कि उचित विकल्प हैं जो सभी वांछित लक्ष्यों (जैसे लोचदार जाल) को प्राप्त करते हैं, यह दृष्टिकोण इस तरह के एक संदिग्ध तदर्थ दृष्टिकोण का उपयोग करना उचित ठहराना मुश्किल है।


3
सहमत .... बिंदु एक क्रॉसवैलिडेशन ढांचे के भीतर फिट होने के लिए सब कुछ है ... इसलिए आपको दो अलग-अलग नियमितीकरण करने के लिए कुछ नेस्टेड क्रॉस सत्यापन करना चाहिए (अन्यथा आप समस्याओं में भाग जाएंगे), और नेस्टेड क्रॉसवेलाइडेशन कम डेटा का उपयोग कर रहा है प्रत्येक भाग।
seanv507

1

उपरोक्त सभी उत्तरों के अलावा: 2x2 और rxc तालिकाओं के लिए एक सटीक chi2 क्रमचय परीक्षण की गणना करना संभव है। ची-स्क्वायर सांख्यिकीय के हमारे देखे गए मूल्य की तुलना एक स्पर्शोन्मुख ची-वर्ग वितरण से करने के बजाय हमें इसकी सटीक क्रमपरिवर्तन वितरण से तुलना करने की आवश्यकता है। हमें पंक्ति और स्तंभ मार्जिन को स्थिर रखते हुए अपने डेटा को सभी संभव तरीकों से अनुमति देने की आवश्यकता है। प्रत्येक अनुमत डेटा सेट के लिए हमने chi2 आँकड़ों को कैलकुलेट किया। फिर हम अपने देखे गए chi2 की तुलना (छांटे हुए) chi2 आँकड़ों के साथ करते हैं। अनुमत chi2 परीक्षण आँकड़ों के बीच वास्तविक परीक्षण आँकड़ों की रैंकिंग एक पी-मूल्य देती है।


क्या आप अपने उत्तर में विवरण जोड़ सकते हैं, कृपया? अपने वर्तमान स्वरूप में, यह स्पष्ट नहीं है कि कोई सटीक chi2 परीक्षण की गणना कैसे करेगा।
एंटोनी वर्नेट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.