रैंडम फॉरेस्ट-स्केलेर में वर्गीकरण थ्रेसहोल्ड

1) मैं स्केलेर में रैंडम फ़ॉरेस्ट में वर्गीकरण थ्रेसहोल्ड (मुझे लगता है कि यह डिफ़ॉल्ट रूप से 0.5 है) कैसे बदल सकता है?

2) मैं स्केलेर में अंडर-सैंपल कैसे ले सकता हूं?

3) मेरे पास रैंडम फॉरेस्ट क्लासिफायर से निम्न परिणाम हैं: [[१६३५ १२ ९ 520] [५२० ३६२४]]

         precision    recall  f1-score   support

class 0       0.76      0.56      0.64      2932
class 1       0.74      0.87      0.80      4144

avg / कुल 0.75 0.74 0.73 7076

सबसे पहले, डेटा असंतुलित है (कक्षा -० से ३०% और कक्षा -१ से class०%)। इसलिए, मुझे लगता है कि कक्षा -1 के लिए कक्षा 1 से कक्षा -1 में कुछ ले जाने के लिए क्लासिफायर होने की संभावना अधिक है (कक्षा -1 के लिए 1297 मिसक्लासिफिकेशन हैं लेकिन क्लास -1 के लिए 520 मिसक्लासीफिकेशन हैं)। मैं इसे कैसे ठीक करूं? अगर downsampling मदद कर सकता है? या वर्गीकरण थ्रेशोल्ड बदल रहा है?

अपडेट: क्लास -० की आबादी ४०% है जबकि क्लास -१ में ६०% है। हालाँकि, कक्षा -० से कक्षा -१ (१२ ९ class) तक बहाव अधिक है जबकि मैं चाहता हूं कि यह कम हो जाए।

— बिग डेटा लवर
स्रोत

आप वास्तव में आपको एक वर्ग में यादृच्छिक वन लपेट सकते हैं जो एक विधि है जो आंतरिक यादृच्छिक वन और आउटपुट वर्ग 1 predictकी predict_probaविधि को कॉल करती है केवल अगर यह एक कस्टम सीमा से अधिक है।

वैकल्पिक रूप से आप sample_weightअल्पसंख्यक वर्ग के नमूनों के लिए उच्चतर उत्तीर्ण करके प्रशिक्षण एल्गोरिथ्म को पूर्वाग्रह कर सकते हैं ।

— ogrisel
स्रोत

धन्यवाद। मैं मामूली वर्ग के लिए वजन बढ़ाने के बारे में सोच रहा था। हालाँकि, मैं रैंडमफोरेस्ट क्लासिफायर में कुछ भी नहीं देख सकता हूं (वहां पर इंटेस्टक्लासीफायर है)

— बिग डाटा लवर्स

फिट विधि एक sample_weightपैराम (प्रति पैरामीटर एक वजन) को स्वीकार करती है जो बहुत लचीला है और यह अनुकरण करना संभव बनाता है class_weight(एक वजन प्रति लक्ष्य वर्ग)।

— ओगरिसेल

धन्यवाद। जब मैं clf = clf.fit (X, Y, नमूना_वेट = preprocessing.balance_weights (y) का उपयोग करता हूं तो यह मुझे वैल्यू प्रदान करता है: ऑपरेंड्स को आकृतियों के साथ एक साथ प्रसारित नहीं किया जा सकता है। y द्विआधारी 0.11 है

— बिग डेटा लवर्स

की आकृति क्या है y? आपके पास अलग Yऔर क्यों है y?

— ओगरिसेल