क्यों AUC = 1 भी क्लासिफायर ने नमूने के आधे हिस्से को गलत तरीके से रखा है?


20

मैं एक क्लासिफायरियर का उपयोग कर रहा हूं जो संभाव्यता लौटाता है। एयूसी की गणना करने के लिए, मैं पीआरओसी आर-पैकेज का उपयोग कर रहा हूं। क्लासिफायर से आउटपुट संभावनाएं हैं:

probs=c(0.9865780,
0.9996340,
0.9516880,
0.9337157,
0.9778576,
0.8140116,
0.8971550,
0.8967585,
0.6322902,
0.7497237)

probsकक्षा '1' में होने की संभावना दर्शाता है। जैसा कि दिखाया गया है, क्लासिफायरियर ने सभी नमूनों को कक्षा '1' में वर्गीकृत किया है।

सच्चा लेबल वेक्टर है:

truel=c(1, 1, 1, 1, 1, 0, 0, 0, 0, 0)

जैसा कि दिखाया गया है, क्लासिफायर ने 5 नमूनों को मिसकॉलिफाइड किया है। लेकिन, एयूसी है:

pROC::auc(truel, probs)
Area under the curve: 1

क्या आप मुझे समझा सकते हैं कि ऐसा क्यों होता है?


संबंधित प्रश्न: stats.stackexchange.com/questions/97395
Juho Kokkala

जवाबों:


21

एयूसी वर्ग सदस्यता की संभावना के अनुसार उदाहरणों को रैंक करने की क्षमता का एक उपाय है । इस प्रकार यदि सभी संभावनाएं 0.5 से ऊपर हैं, तो आप अभी भी एक का एक एयूसी रख सकते हैं यदि सभी सकारात्मक पैटर्न में सभी नकारात्मक पैटर्न की तुलना में उच्च संभावनाएं हैं। इस मामले में एक निर्णय सीमा होगी जो 0.5 से अधिक है, जो शून्य की त्रुटि दर देगा। ध्यान दें कि क्योंकि एयूसी केवल संभावनाओं की रैंकिंग को मापता है, यह आपको यह नहीं बताता है कि क्या संभावनाएं अच्छी तरह से कैलिब्रेट की गई हैं (जैसे कि कोई व्यवस्थित पूर्वाग्रह नहीं है), यदि संभावनाओं का अंशांकन महत्वपूर्ण है तो क्रॉस-एंट्रोपिक मीट्रिक देखें।


21

अन्य उत्तर बताते हैं कि क्या हो रहा है लेकिन मुझे लगा कि एक तस्वीर अच्छी हो सकती है।

आप देख सकते हैं कि कक्षाएं पूरी तरह से अलग हैं, इसलिए एयूसी 1 है, लेकिन 1/2 पर थ्रेशोल्डिंग 50% की गर्भपात दर का उत्पादन करेगा।

probs


21

नमूने बिल्कुल भी "गलत नहीं" थे। 0उदाहरण से सख्ती से कम रैंक किया जाता है 1उदाहरण। AUROC वही कर रहा है जो वह करने के लिए परिभाषित किया गया है, जो इस संभावना को मापता है कि एक यादृच्छिक रूप से चयनित एक यादृच्छिक रूप से चयनित 1की तुलना में उच्च स्थान पर है0 । इस नमूने में, यह हमेशा सच होता है, इसलिए यह एक संभावना 1 घटना है।

टॉम फॉसेट के पास आरओसी वक्रों के बारे में एक शानदार प्रदर्शनी लेख है। मैं वहां शुरू करने का सुझाव दूंगा।

टॉम फॉसेट। "आरओसी विश्लेषण का परिचय।" पैटर्न मान्यता पत्र। 2005।


3
+1 फॉकेट पेपर वास्तव में शुरू करने के लिए बहुत अच्छी जगह है।
डिक्रान मार्सुपियल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.