अत्यधिक असंतुलित डेटा के लिए वर्गीकरण / मूल्यांकन मेट्रिक्स


22

मैं एक धोखाधड़ी का पता लगाने (क्रेडिट-स्कोरिंग जैसी) समस्या से निपटता हूं। जैसे कि धोखाधड़ी और गैर-धोखाधड़ी टिप्पणियों के बीच अत्यधिक असंतुलित संबंध है।

http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html विभिन्न वर्गीकरण मीट्रिक का एक बड़ा अवलोकन प्रदान करता है। Precision and Recallया kappaदोनों एक अच्छा विकल्प लगते हैं:

ऐसे क्लासिफायर के परिणामों को सही ठहराने का एक तरीका यह है कि उनकी तुलना बेसलाइन क्लासिफायरियर से की जाए और यह दिखाया जाए कि वे वास्तव में रैंडम चांस के पूर्वानुमान से बेहतर हैं।

जहां तक ​​मैं समझता हूं, kappaयहां थोड़ा बेहतर विकल्प हो सकता है, क्योंकि यादृच्छिक मौका को ध्यान में रखा जाता है। से सादे अंग्रेजी में कोहेन कप्पा मैं समझता हूँ कि kappaजानकारी लाभ की अवधारणा के साथ सौदों:

[...] 80% की अपेक्षित सटीकता के साथ 80% की अपेक्षित सटीकता के साथ अवलोकन योग्य सटीकता 50% की अपेक्षित सटीकता के साथ [...]

इसलिए, मेरे प्रश्न होंगे:

  • क्या kappaइस समस्या के लिए एक बेहतर-अनुकूल वर्गीकरण मीट्रिक होना सही है?
  • बस kappaवर्गीकरण एल्गोरिथ्म पर असंतुलन के नकारात्मक प्रभावों को रोकने का उपयोग करता है? क्या फिर से (नीचे / ऊपर) -सैंपलिंग या लागत-आधारित शिक्षा (देखें http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf ) अभी भी आवश्यक है?

अप / डाउन सैंपलिंग आपके डेटा का कुछ ऐसा है जो आपको करना चाहिए जब प्रशिक्षण डेटा आपके डेटा को असंतुलित कर देता है और कभी-कभी सहपाठियों को अल्पसंख्यक वर्ग (वर्गों) की अनदेखी करने से रोकने में मदद कर सकता है। अपने क्लासिफायरफ़ायर का मूल्यांकन करते समय रिसैमल्ड डेटा का उपयोग करने के लिए इसका अनुचित (और थोड़ा कपटपूर्ण) - आप एक प्रदर्शन की रिपोर्ट कर रहे होंगे जो आपके क्लासिफ़ायर के पास नहीं है जब इसके नमूने पर लागू किया गया है जो आपके मूल परीक्षण डेटा को समान रूप से वितरित किया गया है।
user48956

जवाबों:


10

हां, कप्पा के बारे में आपकी धारणा सही लगती है। काप्पा सिंगल के रूप में, स्केलर मेट्रिक्स ज्यादातर और अन्य सिंगल, स्केलर मेट्रिक्स पर सटीकता की तरह फायदा होता है, जो छोटी कक्षाओं के पूर्वानुमान प्रदर्शन (किसी बहुत बड़े वर्ग के प्रदर्शन से छाया हुआ) को प्रतिबिंबित नहीं करेगा। कप्पा ने इस समस्या को और अधिक शान से हल किया, जैसा आपने बताया।

अपने प्रदर्शन को मापने के लिए कप्पा जैसी मीट्रिक का उपयोग करना जरूरी नहीं होगा कि आपका मॉडल डेटा के लिए कैसे फिट बैठता है। आप कई मैट्रिक्स का उपयोग करके किसी भी मॉडल के प्रदर्शन को माप सकते हैं, लेकिन मॉडल कैसे फिट बैठता है डेटा अन्य मापदंडों (जैसे हाइपरपैरामीटर) का उपयोग करके निर्धारित किया जाता है। इसलिए आप अपनी बहुत असंतुलित समस्या के लिए एक सर्वोत्तम अनुकूल मॉडल प्रकार और कई विकल्पों के बीच हाइपरपरमेट्रीज़ेशन का चयन करने के लिए उदाहरण के लिए काप्पा का उपयोग कर सकते हैं - लेकिन सिर्फ कप्पा की गणना करने से ही यह नहीं बदलेगा कि आपका मॉडल आपके असंतुलित डेटा को कैसे फिट करता है।

विभिन्न मेट्रिक्स के लिए: कप्पा और सटीक / रिकॉल के अलावा, वास्तविक सकारात्मक और वास्तविक नकारात्मक दरों TPR / TNR, और ROC घटता और वक्र AUC के तहत क्षेत्र पर एक नज़र डालें। आपकी समस्या के लिए कौन सी उपयोगी हैं, यह ज्यादातर आपके लक्ष्य के विवरण पर निर्भर करेगा। उदाहरण के लिए, टीपीआर / टीएनआर और सटीक / रिकॉल में परिलक्षित विभिन्न जानकारी: क्या आपका लक्ष्य धोखाधड़ी का एक उच्च हिस्सा है जो वास्तव में इस तरह का पता लगाया जा रहा है, और वैध लेनदेन का एक उच्च हिस्सा इस तरह का पता लगाया जा रहा है, और / या शेयर को कम से कम किया जा रहा है सभी अलार्म में झूठी अलार्म (जो आपको स्वाभाविक रूप से "एन मास" ऐसी समस्याओं के साथ मिलेगी)?

अप- / डाउनसमलिंग के लिए: मुझे लगता है कि "यदि आवश्यक हो तो" का कोई विहित उत्तर नहीं है। वे आपकी समस्या को स्वीकार करने का एक और तरीका हैं। तकनीकी रूप से: हाँ, आप उनका उपयोग कर सकते हैं, लेकिन देखभाल के साथ उनका उपयोग करें, विशेष रूप से अपसमर्पण (आप इसे नोटिस किए बिना अवास्तविक नमूने बनाना समाप्त कर सकते हैं) - और ध्यान रखें कि दोनों वर्गों के नमूनों की आवृत्ति कुछ हद तक यथार्थवादी नहीं है "जंगली में" "भविष्यवाणी के प्रदर्शन पर भी नकारात्मक प्रभाव पड़ सकता है। कम से कम अंतिम, आयोजित-आउट परीक्षण सेट को फिर से नमूनों की वास्तविक जीवन आवृत्ति को प्रतिबिंबित करना चाहिए। नीचे पंक्ति: मैंने ऐसे दोनों मामलों को देखा है, जो कर रहे हैं या नहीं कर रहे हैं- / या डाउनसमलिंग के परिणामस्वरूप बेहतर अंतिम परिणाम प्राप्त हुए हैं, इसलिए यह एक ऐसी चीज़ है जिसे आपको आज़माने की आवश्यकता हो सकती है (लेकिन अपने परीक्षा सेट (एस) में हेरफेर न करें!) ।


लेकिन क्या डीओआई 10.1109 / ICMLA.2014.4 की तरह लागत-आधारित दृष्टिकोण अधिक उपयुक्त है क्योंकि समग्र व्यावसायिक प्रभाव को माना जाता है?
जॉर्ज हेइलर जूल

15

टीपीएफपीएफएन

  • एफ 1 स्कोर , जो सटीक और स्मरण का हार्मोनिक साधन है
  • जी-माप , जो सटीक और याद का ज्यामितीय मतलब है । एफ 1 की तुलना में, मैंने असंतुलित डेटा के लिए इसे थोड़ा बेहतर पाया है।
  • टीपी/(टीपी+एफपी+एफएन)

नोट: असंतुलित डेटासेट के लिए, आपके मैट्रिक्स का मैक्रो-एवरेज होना सबसे अच्छा है ।


1
जी-माप और जैकार्ड इंडेक्स का उल्लेख करते समय 'बेहतर' से आपका क्या मतलब है?
नरफानर

8

असंतुलित डेटासेट के लिए औसत परिशुद्धता मीट्रिक कभी-कभी AUROC के लिए एक बेहतर विकल्प होता है। एपी स्कोर सटीक-रिकॉल वक्र के तहत क्षेत्र है।

यहाँ कुछ कोड (पायथन) के साथ एक चर्चा है

यहाँ एक कागज है

इसके अलावा पीटर फ्लैक के प्रिसिजन-रिकॉल-गेन कर्व्स देखेंएपी कर्व्स की कमी के बारे में चर्चा के साथ-साथ ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.