मैं जिस परियोजना पर काम कर रहा हूं, उसके लिए विभिन्न वर्गीकरण विधियों की खोज कर रहा हूं, और रैंडम वन की कोशिश करने में दिलचस्पी रखता हूं। मैं अपने आप को शिक्षित करने की कोशिश कर रहा हूं जैसे मैं साथ जाता हूं, और सीवी समुदाय द्वारा प्रदान की गई किसी भी मदद की सराहना करेगा।
मैंने अपने डेटा को प्रशिक्षण / परीक्षण सेटों में विभाजित किया है। R में यादृच्छिक जंगलों के साथ प्रयोग (randomForest पैकेज का उपयोग करके) से, मुझे अपने छोटे वर्ग के लिए उच्च गर्भपात दर के साथ परेशानी हो रही है। मैंने असंतुलित डेटा पर यादृच्छिक जंगलों के प्रदर्शन के विषय में इस पेपर को पढ़ा है , और लेखकों ने यादृच्छिक जंगलों का उपयोग करते समय वर्ग असंतुलन से निपटने के साथ दो तरीके प्रस्तुत किए।
1. भारित यादृच्छिक वन
2. संतुलित रैंडम वन
R पैकेज कक्षाओं के भार को अनुमति नहीं देता है (R सहायता मंचों से, मैंने पढ़ा है कि classwt पैरामीटर ठीक से प्रदर्शन नहीं कर रहा है और भविष्य बग फिक्स के रूप में निर्धारित है), इसलिए मुझे विकल्प 2 के साथ छोड़ दिया गया है। मैं निर्दिष्ट करने में सक्षम हूं यादृच्छिक वन के प्रत्येक पुनरावृत्ति के लिए प्रत्येक वर्ग से नमूना की गई वस्तुओं की संख्या।
मैं यादृच्छिक जंगलों के लिए समान नमूना आकार स्थापित करने के बारे में असहज महसूस करता हूं, जैसा कि मुझे लगता है कि मैं भविष्य के डेटा के साथ खराब प्रदर्शन के लिए अग्रणी बड़े वर्ग के बारे में बहुत अधिक जानकारी खो सकता हूं। बड़े वर्ग के डाउनसमलिंग में सुधार होने पर गर्भपात की दर में सुधार हुआ है, लेकिन मैं सोच रहा था कि क्या यादृच्छिक जंगलों में असंतुलित वर्ग आकारों से निपटने के अन्य तरीके थे?