मैं एक माइक्रोएरे डेटासेट पर एक क्लासिफायरियर के रूप में एक यादृच्छिक वन एल्गोरिथ्म लागू कर रहा हूं जो विभिन्न विशेषताओं के साथ दो ज्ञात समूहों में विभाजित हैं। प्रारंभिक रन के बाद मैं सुविधाओं के महत्व को देखता हूं और 5, 10 और 20 सबसे महत्वपूर्ण विशेषताओं के साथ फिर से ट्री एल्गोरिथ्म चलाता हूं। मुझे लगता है कि सभी सुविधाओं के लिए, शीर्ष 10 और 20 कि त्रुटि दर का ओओबी अनुमान 1.19% है जहां शीर्ष 5 सुविधाओं के लिए यह 0% है। यह मेरे लिए प्रति-सहज लगता है, इसलिए मैं सोच रहा था कि क्या आप बता सकते हैं कि मुझे कुछ याद आ रहा है या मैं गलत मीट्रिक का उपयोग कर रहा हूं।
मैं R में ntree = 1000 के साथ randomForest पैकेज का उपयोग कर रहा हूं, nodesize = 1 और mtry = sqrt ()