यह लसो और दोस्तों के लिए एक उपयुक्त समस्या की तरह लगता है जो संकोचन और परिवर्तनशील चयन करते हैं। सांख्यिकीय अधिगम के तत्व प्रतिगमन के लिए लस्सो और लोचदार जाल का वर्णन करते हैं और, इस समस्या के लिए अधिक प्रासंगिक है, लॉजिस्टिक प्रतिगमन।
पुस्तक के लेखकों ने आरए पैकेज के रूप में ग्लासो और इलास्टिक नेट के कुशल कार्यान्वयन को ग्लमैनेट कहा है । मैंने पहले इस पैकेज का उपयोग लगभग 250,000 पंक्तियों के डेटा मैट्रीस के साथ द्विआधारी डेटा विश्लेषण के लिए किया है, हालांकि कुछ हद तक कम स्तंभ हैं, लेकिन वास्तव में सभी अन्य स्तंभों के खिलाफ सभी स्तंभों के प्रतिगमन चल रहे हैं। यदि डेटा मैट्रिक्स भी विरल है, तो कार्यान्वयन उस का भी लाभ उठा सकता है, और मुझे विश्वास है कि विधि वास्तव में ओपीएस पूर्ण डेटा सेट के लिए काम कर सकती है। यहाँ lasso पर कुछ टिप्पणियाँ हैं:
- लसो पेनल्टी फंक्शन का उपयोग करके वैरिएबल सेलेक्शन को प्राप्त करता है जो कि नॉन-स्मूथ (ए) है ℓ1-norm), जिसके परिणामस्वरूप आम तौर पर पैरामीटर का अनुमान होता है कि कुछ मापदंडों के बराबर 0. बराबर शून्य शून्य पैरामीटर जो अनुमानित हैं, और गैर-शून्य पैरामीटर सिकुड़ा हुआ है, एक ट्यूनिंग पैरामीटर द्वारा निर्धारित किया जाता है। ग्लमैनेट में कार्यान्वयन की दक्षता इस तथ्य पर बहुत निर्भर करती है कि एक बड़े जुर्माना के लिए केवल कुछ पैरामीटर 0 से भिन्न होते हैं।
- ट्यूनिंग पैरामीटर का चयन अक्सर क्रॉस-वैलिडेशन द्वारा किया जाता है, लेकिन क्रॉस-वैलिडेशन चरण के बिना भी विधि पेनल्टी पैरामीटर द्वारा अनुक्रमित चयनित चर का एक अच्छा अनुक्रम देने में सक्षम हो सकती है।
- परिवर्तनीय चयन के लिए नकारात्मक पक्ष यह है कि लस्सो चर के चयन में अस्थिर हो सकता है, विशेष रूप से, अगर वे कुछ सहसंबद्ध हैं। इस अस्थिरता में सुधार के लिए अधिक सामान्य लोचदार शुद्ध दंड का आविष्कार किया गया था, लेकिन यह समस्या को पूरी तरह से हल नहीं करता है। अनुकूली लसो लसो के लिए चर चयन पर सुधार करने के लिए एक और विचार है।
- स्थिरता चयन एक सामान्य विधि है जो मेससहॉउन और बुहल्मन द्वारा सुझाई गई है, लसो जैसी विधियों के साथ चयनित चर की अधिक स्थिरता प्राप्त करने के लिए। इसके लिए डेटा सेट के सबसे अधिक फिट के लिए कई फिट की आवश्यकता होती है और जैसे कि, अधिक कम्प्यूटेशनल रूप से मांग की जाती है।
- लैसो के सोचने का एक उचित तरीका "अच्छा" मॉडल के एक आयामी सेट को एकल-चर मॉडल से अधिक जटिल मॉडल (सभी चर सहित जरूरी नहीं) पैरामीट्रिक द्वारा पैरामीट्रिज्ड बनाने के लिए एक विधि के रूप में है। इसके विपरीत, univariate फिल्टर केवल एक एकल-चर मॉडल के चयन, या आदेश का उत्पादन करते हैं।
पाइथन के लिए लसो और इलास्टिक नेट जैसी विधियों के स्किटिट-लर्न में कार्यान्वयन है ।