Nonparametric प्रतिगमन के लिए सुविधा चयन के सर्वोत्तम तरीके


10

एक नौसिखिया सवाल यहाँ। मैं वर्तमान में आर पैकेज में एनपी पैकेज का उपयोग करके एक गैरपारंपरिक प्रतिगमन कर रहा हूं। मेरे पास 7 विशेषताएं हैं और एक क्रूर बल दृष्टिकोण का उपयोग करके मैंने सबसे अच्छी पहचान की है 3. लेकिन, जल्द ही मेरे पास 7 से अधिक विशेषताएं होंगी!

मेरा सवाल यह है कि गैर-घटक प्रतिगमन के लिए सुविधा चयन के लिए वर्तमान सर्वोत्तम तरीके क्या हैं। और अगर कोई पैकेज विधियों को लागू करता है। धन्यवाद।


1
क्या आप "कई और अधिक" 100 से मतलब है? 1000? 10000? 100000?
रॉबिन जिरार्ड

संभवतः मेरे पास 100 सुविधाओं के आदेश पर होगा। लेकिन मेरे पास सबसे अच्छा फीचर सबसेट पर एक डेसिज़न बनाने के लिए केवल कुछ मिनट हैं।
जम्मुनेव

1
क्या आपने लसो या इलास्टिक नेट की कोशिश की है? पैकेज: lasso, glmnet। वे विधियाँ कुछ वैरिएबल को "सेलेक्ट" कर सकती हैं।
डिप्स_स्टैट

जवाबों:


3

जब तक सबसे अधिक प्रासंगिक चर की पहचान विश्लेषण का एक प्रमुख उद्देश्य नहीं है, अक्सर बेहतर होता है कि किसी भी फीचर का चयन बिल्कुल न करें और ओवर-फिटिंग को रोकने के लिए नियमितीकरण का उपयोग करें। फ़ीचर चयन एक कठिन प्रक्रिया है और यह बहुत आसान है कि फ़ीचर चयन मानदंड को ओवर-फिट किया जाए क्योंकि इसमें कई डिग्री आज़ादी हैं। LASSO और इलास्टिक नेट एक अच्छा समझौता है, प्रत्यक्ष सुविधा के चयन के बजाय नियमितीकरण के माध्यम से स्पार्सिटी प्राप्त करते हैं, इसलिए वे उस विशेष रूप से ओवर-फिटिंग के लिए कम प्रवण होते हैं।


0

लासो वास्तव में एक अच्छा है। सरल चीजें जैसे कि किसी के साथ शुरू करना, और उन्हें एक-एक करके जोड़ना 'उपयोगिता' (क्रॉस-मान्यता के माध्यम से) भी अभ्यास में काफी अच्छा काम करता है। इसे कभी-कभी स्टेजवाइज फीडफॉर्वर्ड सिलेक्शन भी कहा जाता है।

ध्यान दें कि वर्गीकरण / प्रतिगमन के प्रकार पर सबसेट चयन समस्या काफी स्वतंत्र है। यह सिर्फ इतना है कि गैरपारंपरिक तरीके धीमा हो सकते हैं और इसलिए चयन के अधिक बुद्धिमान तरीकों की आवश्यकता होती है।

टी। हस्ती की पुस्तक 'द स्टैटिस्टिकल ऑफ़ स्टैटिस्टिकल लर्निंग' एक अच्छा अवलोकन देती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.