मैं एक धोखाधड़ी का पता लगाने (क्रेडिट-स्कोरिंग जैसी) समस्या से निपटता हूं। जैसे कि धोखाधड़ी और गैर-धोखाधड़ी टिप्पणियों के बीच अत्यधिक असंतुलित संबंध है।
http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html विभिन्न वर्गीकरण मीट्रिक का एक बड़ा अवलोकन प्रदान करता है। Precision and Recall
या kappa
दोनों एक अच्छा विकल्प लगते हैं:
ऐसे क्लासिफायर के परिणामों को सही ठहराने का एक तरीका यह है कि उनकी तुलना बेसलाइन क्लासिफायरियर से की जाए और यह दिखाया जाए कि वे वास्तव में रैंडम चांस के पूर्वानुमान से बेहतर हैं।
जहां तक मैं समझता हूं, kappa
यहां थोड़ा बेहतर विकल्प हो सकता है, क्योंकि यादृच्छिक मौका को ध्यान में रखा जाता है। से सादे अंग्रेजी में कोहेन कप्पा मैं समझता हूँ कि kappa
जानकारी लाभ की अवधारणा के साथ सौदों:
[...] 80% की अपेक्षित सटीकता के साथ 80% की अपेक्षित सटीकता के साथ अवलोकन योग्य सटीकता 50% की अपेक्षित सटीकता के साथ [...]
इसलिए, मेरे प्रश्न होंगे:
- क्या
kappa
इस समस्या के लिए एक बेहतर-अनुकूल वर्गीकरण मीट्रिक होना सही है? - बस
kappa
वर्गीकरण एल्गोरिथ्म पर असंतुलन के नकारात्मक प्रभावों को रोकने का उपयोग करता है? क्या फिर से (नीचे / ऊपर) -सैंपलिंग या लागत-आधारित शिक्षा (देखें http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf ) अभी भी आवश्यक है?