मुझे प्रशिक्षण सेट में लगभग 1000 सकारात्मक और 10000 नकारात्मक नमूनों के साथ एक वर्गीकरण समस्या है। इसलिए यह डेटा सेट काफी असंतुलित है। सादा यादृच्छिक वन बस सभी परीक्षण नमूनों को एक बहुसंख्यक वर्ग के रूप में चिह्नित करने की कोशिश कर रहा है।
उप-नमूने और भारित यादृच्छिक वन के बारे में कुछ अच्छे उत्तर यहां दिए गए हैं: अत्यधिक पक्षपाती डेटासेट के साथ ट्री एन्सेम्बल के प्रशिक्षण के लिए क्या निहितार्थ हैं?
आरएफ के अलावा कौन से वर्गीकरण तरीके समस्या को सबसे अच्छे तरीके से संभाल सकते हैं?