मेरे पास ज्यादातर वित्तीय चर (120 विशेषताएं, 4k उदाहरण) के साथ एक डेटासेट है जो ज्यादातर अत्यधिक सहसंबद्ध और बहुत शोर (तकनीकी संकेतक, उदाहरण के लिए) हैं, इसलिए मैं मॉडल प्रशिक्षण (बाइनरी वर्गीकरण) के साथ अधिकतम 20-30 के बारे में चयन करना चाहूंगा - वृद्धि कमी)।
मैं फीचर रैंकिंग के लिए यादृच्छिक जंगलों का उपयोग करने के बारे में सोच रहा था। क्या उन्हें पुनरावर्ती उपयोग करना एक अच्छा विचार है? उदाहरण के लिए, मान लें कि पहले दौर में मैं सबसे खराब 20% गिराता हूं, दूसरा भी और जब तक मुझे वांछित संख्या नहीं मिलती। क्या मुझे आरएफ के साथ क्रॉस-मान्यता का उपयोग करना चाहिए? (यह मेरे लिए सहज है कि सीवी का उपयोग न करें क्योंकि यह बहुत ज्यादा है जो आरएफ पहले से ही करता है।)
इसके अलावा, अगर मैं यादृच्छिक जंगलों के साथ जाता हूं, तो क्या मुझे आयात बढ़ाने के लिए वास्तविक वृद्धि / कमी के लिए उन्हें बाइनरी या रेजिस्टर के रूप में वर्गीकृत करना चाहिए?
वैसे, मैं उन मॉडलों का चयन करना चाहूंगा जो सुविधा चयन के बाद हैं: एसवीएम, तंत्रिका जाल, स्थानीय रूप से भारित रेजिमेंट और यादृच्छिक वन। मैं मुख्य रूप से पायथन में काम कर रहा हूं।
built-in
की विशेषता RandomForestClassifier में sklearn
कहा जाता है feature_importances_
....? आप इसे लिंक में देखेंगे।
multicollinearity
सुविधा आयात और सुविधा चयन विकृत कर सकते हैं। इसे यहाँ देखें