उपरोक्त उत्तर दोनों अच्छे हैं।
लेकिन मैं जिस बिंदु को इंगित करना चाहता हूं वह है एयूसी (आरओसी के तहत क्षेत्र) समस्याग्रस्त है विशेष रूप से डेटा असंतुलित है (इसलिए इसे अत्यधिक तिरछा कहा जाता है: बड़ा है)। कार्रवाई का पता लगाने, धोखाधड़ी का पता लगाने, दिवालियापन की भविष्यवाणी ect में इस तरह की स्थितियां बहुत आम हैं। यही है, आपके द्वारा देखभाल किए जाने वाले सकारात्मक उदाहरणों में घटना की अपेक्षाकृत कम दर है।एसk e w = n e ga t i v ईe x a m p l l e sp o s i i t i v ee x a m p l l e s
असंतुलित डेटा के साथ, एयूसी अभी भी आपको लगभग 0.8 का अनुमानित मूल्य देता है। हालांकि, यह बड़े टीपी (सच्चे सकारात्मक) के बजाय बड़े एफपी के कारण अधिक है।
नीचे दिए गए उदाहरण के रूप में,
TP=155, FN=182
FP=84049, TN=34088
इसलिए जब आप क्लासिफायर के प्रदर्शन को मापने के लिए एयूसी का उपयोग करते हैं, तो समस्या यह है कि एयूसी का बढ़ना वास्तव में एक बेहतर क्लासिफायर को प्रतिबिंबित नहीं करता है। यह बहुत सारे नकारात्मक उदाहरणों का सिर्फ साइड-इफेक्ट है। आप सीधे आपको डेटासेट में आज़मा सकते हैं।
एफβ= ( 1 + β2) ⋅ पी आर ई सी मैं रों मैं ओ एन ⋅ आर ई सी एक एल एल( β2⋅ p r e c i s s i o n ) + r e c a l l
β
फिर, असंतुलित डेटा के लिए मेरे सुझाव इस पोस्ट के समान हैं । आप डिकाइल टेबल भी आज़मा सकते हैं, जिसका निर्माण "टू-बाय-टू क्लासिफिकेशन और डेसीबल टेबल्स" को खोज कर किया जा सकता है। इस बीच, मैं भी इस समस्या पर अध्ययन कर रहा हूं और बेहतर उपाय करूंगा।