झूठी सकारात्मकता की संख्या कैसे कम करें?


12

मैं पदयात्रा का पता लगाने वाले कार्य को हल करने की कोशिश कर रहा हूं और मैं बाइनरी क्लैसिफर को दो श्रेणियों सकारात्मकता - लोगों, नकारात्मक - पृष्ठभूमि पर प्रशिक्षित करता हूं।

मेरे पास डाटासेट है:

  • सकारात्मक संख्या = 3752
  • नकारात्मक की संख्या = 3800

मैं ट्रेन \ टेस्ट स्प्लिट 80 \ 20% का उपयोग करता हूं और रैंडमफॉर्स्ट क्लैसिफ़ायर फॉर्म स्किकिट-लर्न टू पैरामीटर:

RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1)

मुझे स्कोर मिलता है: 95.896757%

प्रशिक्षण डेटा पर परीक्षण (पूरी तरह से काम करता है):

true positive:  3005
false positive:  0
false negative:  0
true negative:  3036

परीक्षण डेटा पर परीक्षण:

true positive:  742
false positive:  57
false negative:  5
true negative:  707

मेरा प्रश्न यह है कि झूठी सकारात्मकता (लोगों के रूप में वर्गीकृत पृष्ठभूमि) की संख्या को कैसे कम किया जाए? इसके अलावा, झूठी झूठी नकारात्मक की तुलना में मेरे पास झूठी गलतियां क्यों हैं?

मैंने class_weightपैरामीटर का उपयोग करने की कोशिश की , लेकिन कुछ बिंदु प्रदर्शन में गिरावट (जैसा कि आप class_weight = {0: 1,1: 4}) पर देख सकते हैं)।

class_weight= {0:1,1:1}
true positive:  3005
false positive:  0
false negative:  0
true negative:  3036

true positive:  742
false positive:  55
false negative:  5
true negative:  709
score: 96.029120 %

class_weight= {0:1,1:2}
true positive:  3005
false positive:  0
false negative:  0
true negative:  3036

true positive:  741
false positive:  45
false negative:  6
true negative:  719
score: 96.624752 %

class_weight= {0:1,1:3}
true positive:  3005
false positive:  0
false negative:  0
true negative:  3036

true positive:  738
false positive:  44
false negative:  9
true negative:  720
score: 96.492389 %

class_weight= {0:1,1:4}
true positive:  3005
false positive:  13
false negative:  0
true negative:  3023

true positive:  735
false positive:  46
false negative:  12
true negative:  718
score: 96.161482 %

class_weight= {0:1,1:5}
true positive:  3005
false positive:  31
false negative:  0
true negative:  3005

true positive:  737
false positive:  48
false negative:  10
true negative:  716
score: 96.161482 %

class_weight= {0:1,1:6}
true positive:  3005
false positive:  56
false negative:  0
true negative:  2980

true positive:  736
false positive:  51
false negative:  11
true negative:  713
score: 95.896757 %

class_weight= {0:1,1:7}
true positive:  3005
false positive:  87
false negative:  0
true negative:  2949

true positive:  734
false positive:  59
false negative:  13
true negative:  705
score: 95.234944 %

यह भी ध्यान देने योग्य है कि रैंडम फ़ॉरस्ट असंतुलित डेटासेट से ग्रस्त नहीं है:

पॉज़ = 3752 नेग = 10100

class_weight = {0: 1,1: 1} सच्चा सकारात्मक: 3007 गलत सकारात्मक: 0 गलत नकारात्मक: 0 सच्चा नकारात्मक: 8074

true positive:  729
false positive:  71
false negative:  16
true negative:  1955
score: 96.860339 %

class_weight= {0:1,1:2}
true positive:  3007
false positive:  0
false negative:  0
true negative:  8074

true positive:  728
false positive:  59
false negative:  17
true negative:  1967
score: 97.257308 %

class_weight= {0:1,1:3}
true positive:  3007
false positive:  0
false negative:  0
true negative:  8074

true positive:  727
false positive:  58
false negative:  18
true negative:  1968
score: 97.257308 %

जवाबों:


7

मैं एक विशेषज्ञ नहीं हूं जब यह यादृच्छिक जंगलों की बात आती है, तो मैंने उन्हें हाल ही में पढ़ा। लेकिन यह मुझे कैसे लगता है कि आप यादृच्छिक जंगल से अधिक हैं। मैं उस तकनीक का उपयोग करने के लिए करूंगा जहां आप भविष्यवाणियां करने के लिए आउट-ऑफ-बैग टिप्पणियों का उपयोग करते हैं। आप इन स्लाइड्स पर प्रक्रिया पा सकते हैं: https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/trees.pdf

एक अन्य बात जो मैं सुझाऊंगा वह इन स्लाइड्स में भी वर्णित है जिसे ग्रेडिएंट बूस्टिंग मशीन (जीबीएम) भी कहा जाता है। मुझे लगता है कि जीबीएम यादृच्छिक वन की तुलना में अधिक सहज है।

Edit1 : मैंने इसे फिर से जांचा और ऐसा लगता है कि बूटस्ट्रैपिंग GBM का पहला चरण है। इसके अलावा, मुझे बूटस्ट्रैपिंग से संबंधित समस्याएं नहीं हैं, यह अच्छा और अच्छा है। इसके साथ एकमात्र समस्या यह है कि इसका उपयोग बहुत बुरी तरह से किया जा सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.