समर्थन वेक्टर मशीनों के लिए फ़ीचर चयन


9

मेरा प्रश्न तीन गुना है

वेक्टर मशीनों का "कर्नेलाइज़्ड" समर्थन के संदर्भ में

  1. क्या परिवर्तनीय / सुविधा चयन वांछनीय है - विशेष रूप से जब हम ओवरफ़िटिंग को रोकने के लिए पैरामीटर सी को नियमित करते हैं और एसवीएम के लिए कर्नेल को शुरू करने के पीछे मुख्य उद्देश्य समस्या की गतिशीलता को बढ़ाना है, ऐसे मामले में पैरामीटर में कमी से आयाम को कम करना काउंटर-सहज ज्ञान युक्त है।
  2. यदि 1 प्रश्न का उत्तर "NO" है, तो, उत्तर किन परिस्थितियों में बदलता है जिसे किसी को ध्यान में रखना चाहिए?
  3. क्या कोई अच्छी विधियां हैं, जो कि अजगर की लाइब्रेरी के बारे में जानने के लिए SVMs में फीचर कमी लाने की कोशिश की गई हैं - मैंने SelectFpr विधि की कोशिश की है और विभिन्न तरीकों से अनुभव वाले लोगों की तलाश कर रहा हूं।

1
सुविधा चयन हमेशा मदद करने के लिए जा रहा है जब तक कि आपकी प्रारंभिक विशेषताएं सुपर उच्च गुणवत्ता के साथ शुरू न हों। Sklearn कई अलग-अलग फ़ीचर चयन लाइब्रेरी ( scikit-learn.org/stable/modules/feature_selection.html ) प्रदान करता है जो मैं स्वयं RFE के लिए आंशिक हूँ।
डेविड

1
आपने अपने संदर्भ का उल्लेख नहीं किया - ध्यान दें कि यदि यह व्यावसायिक संदर्भ में है, तो मॉडल में बनी हुई प्रत्येक सुविधा को किसी स्तर पर रखरखाव की आवश्यकता होती है - यदि आपके पास अधिक चर हैं, तो इस अर्थ में एक शाब्दिक धन लागत शामिल है उदाहरण के लिए, अधिक डेटा संग्रह प्रयास, DBA समय और प्रोग्रामिंग समय की आवश्यकता होती है। यह विचार स्पष्ट रूप से लागू नहीं होता है अगर यह एक कागले COMP या इसी तरह के लिए है, और यदि डेटासेट में उपलब्ध सुविधाओं के अतिरिक्त 200 का उपयोग करने से आपको प्रदर्शन में 0.01% बढ़ावा मिलता है तो आप पैसे में हैं।
रॉबर्ट डी ग्रेफ

जवाबों:


3

व्यक्तिगत रूप से, मैं दो में फीचर चयन को विभाजित करना पसंद करता हूं:

  • अनुपयोगी सुविधा का चयन
  • पर्यवेक्षित सुविधा चयन

Unsupervised फीचर का चयन क्लस्टरिंग या PCA जैसी चीजें हैं जहां आप कम से कम अतिरेक श्रेणी का चयन करते हैं (या थोड़ी अतिरेक के साथ सुविधाएँ बनाते हैं)। सुपरवाइज्ड फीचर का चयन लास्सो जैसी चीजें हैं जहां आप सबसे अधिक अनुमानित शक्ति के साथ सुविधाओं का चयन करते हैं।

मैं व्यक्तिगत रूप से आमतौर पर पसंद करता हूं जिसे मैं पर्यवेक्षित सुविधा चयन कहता हूं। इसलिए, एक रैखिक प्रतिगमन का उपयोग करते समय, मैं लासो के आधार पर सुविधाओं का चयन करूंगा। इसी तरह के तरीके तंत्रिका नेटवर्क में विरलता उत्पन्न करने के लिए मौजूद हैं।

लेकिन वास्तव में, मैं यह नहीं देखता कि मैं किस तरह से गुठली का उपयोग करने की विधि में जाऊंगा, इसलिए आप शायद इस बात का उपयोग करने से बेहतर हैं कि मैं अनसुना फीचर का चयन क्या करूं।

EDIT: आपने नियमितीकरण के बारे में भी पूछा। मैं नियमितीकरण को ज्यादातर मदद के रूप में देखता हूं क्योंकि हम परिमित नमूनों के साथ काम करते हैं और इसलिए प्रशिक्षण और परीक्षण वितरण हमेशा कुछ हद तक भिन्न होंगे, और आप चाहते हैं कि आपका मॉडल ओवरफिट न हो। मुझे यकीन नहीं है कि यह सुविधाओं को चुनने से बचने की आवश्यकता को हटा देता है (यदि आपके पास वास्तव में बहुत अधिक है)। मुझे लगता है कि सुविधाओं का चयन करना (या उनमें से एक छोटा सा उप-समूह बनाना) उन विशेषताओं को बनाने में मदद करता है जो आपके पास अधिक मजबूत हैं और मॉडल को गंभीर सहसंबंधों से सीखने से बचें। इसलिए, नियमितीकरण मदद करता है, लेकिन यह सुनिश्चित नहीं है कि यह एक पूर्ण विकल्प है। लेकिन मैंने इस बारे में पूरी तरह से नहीं सोचा है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.