1) मैं स्केलेर में रैंडम फ़ॉरेस्ट में वर्गीकरण थ्रेसहोल्ड (मुझे लगता है कि यह डिफ़ॉल्ट रूप से 0.5 है) कैसे बदल सकता है?
2) मैं स्केलेर में अंडर-सैंपल कैसे ले सकता हूं?
3) मेरे पास रैंडम फॉरेस्ट क्लासिफायर से निम्न परिणाम हैं: [[१६३५ १२ ९ 520] [५२० ३६२४]]
precision recall f1-score support
class 0 0.76 0.56 0.64 2932
class 1 0.74 0.87 0.80 4144
avg / कुल 0.75 0.74 0.73 7076
सबसे पहले, डेटा असंतुलित है (कक्षा -० से ३०% और कक्षा -१ से class०%)। इसलिए, मुझे लगता है कि कक्षा -1 के लिए कक्षा 1 से कक्षा -1 में कुछ ले जाने के लिए क्लासिफायर होने की संभावना अधिक है (कक्षा -1 के लिए 1297 मिसक्लासिफिकेशन हैं लेकिन क्लास -1 के लिए 520 मिसक्लासीफिकेशन हैं)। मैं इसे कैसे ठीक करूं? अगर downsampling मदद कर सकता है? या वर्गीकरण थ्रेशोल्ड बदल रहा है?
अपडेट: क्लास -० की आबादी ४०% है जबकि क्लास -१ में ६०% है। हालाँकि, कक्षा -० से कक्षा -१ (१२ ९ class) तक बहाव अधिक है जबकि मैं चाहता हूं कि यह कम हो जाए।