व्यक्तिगत रूप से, मैं दो में फीचर चयन को विभाजित करना पसंद करता हूं:
- अनुपयोगी सुविधा का चयन
- पर्यवेक्षित सुविधा चयन
Unsupervised फीचर का चयन क्लस्टरिंग या PCA जैसी चीजें हैं जहां आप कम से कम अतिरेक श्रेणी का चयन करते हैं (या थोड़ी अतिरेक के साथ सुविधाएँ बनाते हैं)। सुपरवाइज्ड फीचर का चयन लास्सो जैसी चीजें हैं जहां आप सबसे अधिक अनुमानित शक्ति के साथ सुविधाओं का चयन करते हैं।
मैं व्यक्तिगत रूप से आमतौर पर पसंद करता हूं जिसे मैं पर्यवेक्षित सुविधा चयन कहता हूं। इसलिए, एक रैखिक प्रतिगमन का उपयोग करते समय, मैं लासो के आधार पर सुविधाओं का चयन करूंगा। इसी तरह के तरीके तंत्रिका नेटवर्क में विरलता उत्पन्न करने के लिए मौजूद हैं।
लेकिन वास्तव में, मैं यह नहीं देखता कि मैं किस तरह से गुठली का उपयोग करने की विधि में जाऊंगा, इसलिए आप शायद इस बात का उपयोग करने से बेहतर हैं कि मैं अनसुना फीचर का चयन क्या करूं।
EDIT: आपने नियमितीकरण के बारे में भी पूछा। मैं नियमितीकरण को ज्यादातर मदद के रूप में देखता हूं क्योंकि हम परिमित नमूनों के साथ काम करते हैं और इसलिए प्रशिक्षण और परीक्षण वितरण हमेशा कुछ हद तक भिन्न होंगे, और आप चाहते हैं कि आपका मॉडल ओवरफिट न हो। मुझे यकीन नहीं है कि यह सुविधाओं को चुनने से बचने की आवश्यकता को हटा देता है (यदि आपके पास वास्तव में बहुत अधिक है)। मुझे लगता है कि सुविधाओं का चयन करना (या उनमें से एक छोटा सा उप-समूह बनाना) उन विशेषताओं को बनाने में मदद करता है जो आपके पास अधिक मजबूत हैं और मॉडल को गंभीर सहसंबंधों से सीखने से बचें। इसलिए, नियमितीकरण मदद करता है, लेकिन यह सुनिश्चित नहीं है कि यह एक पूर्ण विकल्प है। लेकिन मैंने इस बारे में पूरी तरह से नहीं सोचा है।