केएस, एयूआरओसी, और गिन्नी के बीच संबंध


11

आम मॉडल सत्यापन आँकड़े जैसे कोल्मोगोरोव-स्मिरनोव परीक्षण (केएस), एयूआरओसी , और गिनी गुणांक सभी कार्यात्मक रूप से संबंधित हैं। हालांकि, मेरा सवाल यह साबित करने से है कि ये सभी कैसे संबंधित हैं। मुझे उत्सुकता है अगर कोई मुझे इन रिश्तों को साबित करने में मदद कर सकता है। मुझे ऑनलाइन कुछ भी नहीं मिला है, लेकिन मैं वास्तव में दिलचस्पी रखता हूं कि सबूत कैसे काम करते हैं। उदाहरण के लिए, मुझे गिन्नी = 2AUROC-1 पता है, लेकिन मेरे सबसे अच्छे सबूत में एक ग्राफ की ओर इशारा किया गया है। मुझे औपचारिक सबूतों में दिलचस्पी है। किसी भी तरह की सहायता का स्वागत किया जाएगा!


1
केएस से, क्या आपका मतलब कोलमोगोरोव-स्मिरनोव स्टेटिस्टिक है? AUROC संभवतः आरओसी वक्र के नीचे का क्षेत्र है?
नितेश

विकिपीडिया से शुरू करने और मूल संदर्भों से गुजरने जैसा लगता है कि यह एक अच्छी जगह होगी।
लॉरीके

जवाबों:


1

रिसीवर ऑपरेटिंग विशेषता के लिए विकिपीडिया प्रविष्टि Gini = 2AUROC-1 परिणाम के लिए इस पत्र को संदर्भित करता है: हाथ, डेविड जे ;; और टिल, रॉबर्ट जे (2001); आरओसी वक्र के तहत क्षेत्र का एक साधारण सामान्यीकरण कई वर्ग वर्गीकरण समस्याओं, मशीन लर्निंग, 45, 171–186 के लिए। लेकिन मुझे डर है कि मेरे पास यह देखने के लिए आसान नहीं है कि आप जो चाहते हैं वह कितना करीब है।


1
... और यह एक बेकार परिणाम हो सकता है, क्योंकि गिन्नी को आम तौर पर उन डेटा पर लागू किया जाता है जिनमें दो श्रेणीबद्ध लेबल होते हैं, जबकि AUROC संख्यात्मक रैंकिंग डेटा + एक बाइनरी लेबल पर लागू होता है। वे केवल तभी मेल खा सकते हैं जब आपकी रैंकिंग बाइनरी है? जिस स्थिति में यह AUROC का उपयोग करने के लिए बहुत अधिक समझ में नहीं आएगा क्योंकि यह 3-बिंदु वक्र है, जिसमें केवल 2 डिग्री की स्वतंत्रता है ... (मैंने उस परिणाम की जांच नहीं की है, इन दिनों विकिपीडिया पर बहुत अधिक पेपर स्पैम।)
है QUIT - ऐनी-मूस

0

के अनुसार कागज (Adeodato, पी.जे. एल और मेलो, एसबी 2016), वहाँ के एस वक्र (AUKS) और क्षेत्र आरओसी वक्र के तहत (AUROC) के तहत क्षेत्र बीच एक रैखिक संबंध है, अर्थात्:

AUROC=0.5+AUKS

समतुल्य का प्रमाण कागज में शामिल है।


0

परिणाम Gini = 2 * AUROC-1 को साबित करना मुश्किल है क्योंकि यह जरूरी नहीं है कि यह सच है। रिसीवर ऑपरेटिंग कैरेक्टरिस्टिक वक्र पर विकिपीडिया लेख , गिन्नी की परिभाषा के रूप में परिणाम देता है, और हाथ और तिल द्वारा लेख (nealmcb द्वारा उद्धृत) केवल कहता है कि ROC वक्र का उपयोग करके गिन्नी की ग्राफिक परिभाषा इस सूत्र की ओर ले जाती है।

पकड़ यह है कि गिन्नी की इस परिभाषा का उपयोग मशीन-लर्निंग और इंजीनियरिंग समुदायों में किया जाता है, लेकिन अर्थशास्त्री और जनसांख्यिकी (वापस गिन्नी के मूल कागज पर वापस जाने) द्वारा एक अलग परिभाषा का उपयोग किया जाता है। गिनी गुणांक पर विकिपीडिया लेख लोरेंज वक्र के आधार पर इस परिभाषा को निर्धारित करता है।

Schechtman & Schechtman (2016) का एक पेपर AUC और मूल Gini परिभाषा के बीच संबंध को निर्धारित करता है। लेकिन यह देखने के लिए कि वे बिल्कुल समान नहीं हो सकते हैं, मान लीजिए कि घटनाओं का अनुपात p है और हमारे पास एक आदर्श क्लासिफायरियर है। ROC वक्र तब ऊपरी-बाएँ कोने से होकर गुजरता है और AUCROC 1. है। हालाँकि, (फ़्लिप किया गया) लोरेंज वक्र (0,0) से ( p , 1) से (1,1) तक चलता है और अर्थशास्त्रियों का गिन्नी 1 है - पी / 2, जो लगभग नहीं है, लेकिन बिल्कुल 1 है।

यदि घटनाएँ दुर्लभ हैं, तो Gini = 2 * AUROC-1 का संबंध लगभग है लेकिन Gini की मूल परिभाषा का उपयोग करते हुए बिल्कुल सही नहीं है। यह संबंध केवल तभी सच है जब इसे सच करने के लिए गिन्नी को फिर से परिभाषित किया जाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.