क्या एयूसी प्रत्येक वर्ग से यादृच्छिक रूप से चयनित उदाहरण को सही ढंग से वर्गीकृत करने की संभावना है?


11

मैंने एक पेपर में इस कैप्शन को पढ़ा और कभी भी कहीं और इस तरह वर्णित AUC को नहीं देखा। क्या ये सच है? क्या यह देखने का कोई प्रमाण या सरल तरीका है?

अंजीर। 2, रिसीवर-ऑपरेटिंग विशेषता वक्र (AUC) के तहत क्षेत्र के संदर्भ में व्यक्त किए गए द्विभाजनशील चर की भविष्यवाणी सटीकता को दर्शाता है, जो प्रत्येक वर्ग से एक से दो यादृच्छिक रूप से चयनित उपयोगकर्ताओं को सही ढंग से वर्गीकृत करने की संभावना के बराबर है (जैसे, पुरुष और महिला) )।

यह मुझे लगता है कि यह सच नहीं हो सकता है, क्योंकि AUC = 0.5 के लिए, ऊपर कोई एक पंक्ति में दो बार एक सिक्का फ्लिप करने की सही भविष्यवाणी करने की 50% संभावना है, लेकिन वास्तव में, आपके पास केवल 25% मौका होगा सही ढंग से दो सिक्कों की भविष्यवाणी करने पर एक पंक्ति में फड़फड़ाता है। कम से कम, कि मैं इस कथन के बारे में सोच रहा हूँ।


1
मैं इस अवधारणा की सराहना करता हूं कि शीर्षक में व्यक्त की गई अवधारणा वैसे भी बहुत सही नहीं है, लेकिन उद्धरण से मेल खाने के लिए, क्या इसे "सही ढंग से वर्गीकृत करने की संभावना ..." के बजाय "वर्गीकरण की संभावना" नहीं होनी चाहिए? मैंने इसे पहली बार पढ़ा था।
सिल्वरफिश

1
यह पहले से ही काफी लंबा शीर्षक था! मुझे वास्तव में "सही ढंग से" जोड़ने पर विश्वास था कि यह विश्वास करता है या नहीं। :)
thecity2

जवाबों:


14

उद्धरण थोड़ा गलत है। सही कथन यह है कि आरओसी एयूसी संभावना है एक यादृच्छिक रूप से चुने गए सकारात्मक उदाहरण को यादृच्छिक रूप से चुने गए नकारात्मक उदाहरण की तुलना में अधिक उच्च स्थान पर रखा गया है। यह आरओसी एयूसी और रैंकों के विलकॉक्सन परीक्षण के बीच संबंध के कारण है।

आपको टॉम फॉसेट " एन इंट्रोडक्शन टू आरओसी एनालिसिस " पर चर्चा रोशन करने वाली मिलेगी ।


8

लेखक का विवरण पूरी तरह से सटीक नहीं है। आरओसी वक्र के तहत क्षेत्र वास्तव में संभावना के बराबर है कि एक यादृच्छिक रूप से चयनित सकारात्मक उदाहरण में एक यादृच्छिक रूप से चयनित नकारात्मक उदाहरण की तुलना में उच्च जोखिम स्कोर है। यह आवश्यक रूप से वर्गीकरण के साथ कुछ भी नहीं करता है, यह स्कोर वितरण के बीच अलगाव का एक उपाय है।

अपने सिक्के के उदाहरण के लिए, कल्पना कीजिए कि आपके पास दो सिक्के हैं और प्रत्येक का स्कोर इसके साथ जुड़ा हुआ है। आप तब तक दोनों सिक्कों को फ्लिप करते हैं जब तक कि एक सिर और दूसरे पूंछ के ऊपर नहीं आता (क्योंकि हम अलग-अलग परिणामों पर कंडीशनिंग कर रहे हैं)। यह एक ऐसे मॉडल के समतुल्य है जो यादृच्छिक स्कोरिंग करता है, और इस बात की संभावना है कि जो सिक्का ऊपर आया है उसका उच्चतर (या निचला) स्कोर 1/2 है।


2

आपने जो वर्णन पढ़ा है, वह सही है, हालाँकि मैं इसके शब्दों को नापसंद करता हूं। आरओसी (एयूसी) वक्र के तहत क्षेत्र में कक्षा 2 से कक्षा 1 में व्यक्तियों की यादृच्छिक जोड़ी को सही ढंग से वर्गीकृत करने की संभावना है। यह एक रैंक-आधारित आँकड़ा है, इसलिए यदि आपको यह अनुमान लगाना है कि क्या जोड़ी में एक व्यक्ति की तुलना में अधिक रैंक है। अन्य, कि केवल 50% मौका है अगर यादृच्छिक पर अनुमान लगा रहे हैं। AUC समान है [1] Wilcoxon पर हस्ताक्षर किए-रैंक टेस्ट स्टेटिस्टिक, और इसका अर्थ बताने के लिए इसका उपयोग किया जा सकता है।

[१]: मेसन एंड ग्राहम (२००२)। रिश्तेदार ऑपरेटिंग विशेषताओं (आरओसी) और रिश्तेदार ऑपरेटिंग स्तरों (आरओएल) घटता के नीचे के क्षेत्र: सांख्यिकीय महत्व और व्याख्या। रॉयल मौसम विज्ञान सोसायटी का त्रैमासिक जर्नल। 128: 2145-2166।


1

जैसा कि अन्य ने बताया है, एयूसी इस संभावना को व्यक्त करता है कि सकारात्मक वर्ग से एक यादृच्छिक रूप से चुना गया उदाहरण, क्लासिफायर से प्राप्त होगा, नकारात्मक वर्ग से यादृच्छिक रूप से चुने गए उदाहरण की तुलना में एक उच्च स्कोर।

इस संपत्ति के प्रमाण के लिए देखें: AUC के लिए गणितीय सूत्र कैसे प्राप्त करें?

या स्रोत उस उत्तर के लिए उपयोग किया जाता है: डी। हैंड, 2009, मापने क्लासिफायर प्रदर्शन: आरओसी वक्र के तहत क्षेत्र के लिए एक सुसंगत विकल्प

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.