असंतुलित डेटासेट के लिए आरओसी घटता है


10

एक इनपुट मैट्रिक्स और एक बाइनरी आउटपुट पर विचार करें ।Xy

एक क्लासिफायरियर के प्रदर्शन को मापने का एक सामान्य तरीका आरओसी घटता का उपयोग करना है।

एक आरओसी प्लॉट में विकर्ण वह परिणाम है जो एक यादृच्छिक क्लासिफायर से प्राप्त किया जाएगा। असंतुलित आउटपुट के मामले में, यादृच्छिक वर्गीकरण के प्रदर्शन को विभिन्न संभावनाओं के साथ या चुनने में सुधार किया जा सकता है।y01

आरओसी वक्र प्लॉट में ऐसे क्लासिफायर के प्रदर्शन का प्रतिनिधित्व कैसे किया जा सकता है? मुझे लगता है कि यह एक अलग कोण के साथ एक सीधी रेखा होनी चाहिए, और अब विकर्ण नहीं?

आरओसी वक्र उदाहरण


2
आप इसके बजाय सटीक-रिकॉल वक्र का प्रयास करना चाह सकते हैं, "प्रेसिजन-रिकॉल प्लॉट आरओसी प्लॉट की तुलना में अधिक जानकारीपूर्ण है जब असंतुलित डेटासेट पर बाइनरी क्लासिफायर्स का मूल्यांकन", ncbi.nlm.nih.gov.pmc / articles / PMC4349800 , एक संभावना अधिक कागज के लेखकों द्वारा बनाई गई सुलभ वेबसाइट, classeval.wordpress.com/simulation-analysis/…
zyxue

जवाबों:


16

आरओसी घटता वर्ग संतुलन के लिए असंवेदनशील हैं। अब आप एक यादृच्छिक क्लासिफायर के लिए जो सीधी रेखा प्राप्त करते हैं, वह पहले से ही पॉज़िटिव (0 से 0 और 0 तक लाता है) की विभिन्न संभावनाओं का उपयोग करने का नतीजा है और 1 आपको (1, 1) किसी भी रेंज इनबेटन के साथ लाता है)।

असंतुलित सेटिंग में कुछ भी नहीं बदलता है।


1
मुझे यह देखने के लिए वक्र के नीचे के क्षेत्र पर विचार करने के लिए उपयोगी लगता है कि विकर्ण क्यों नहीं बदलता है। एयूसी की व्याख्या इस संभावना के रूप में की जा सकती है कि एक यादृच्छिक रूप से चयनित सकारात्मक उदाहरण में यादृच्छिक रूप से चयनित नकारात्मक उदाहरण की तुलना में उच्च स्कोर होगा। 1 है । इससे मुझे स्पष्ट हो जाता है कि वर्ग असंतुलन एक मुद्दा क्यों नहीं है।
जेबेकर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.