सटीक-रिकॉल वक्र के लिए एक अच्छा AUC क्या है?


11

क्योंकि मेरे पास बहुत असंतुलित डेटासेट (9% सकारात्मक परिणाम) हैं, मैंने फैसला किया कि एक सटीक-रिकॉल वक्र ROC वक्र की तुलना में अधिक उपयुक्त था। मैंने पीआर वक्र (.49, यदि आप रुचि रखते हैं) के तहत क्षेत्र का अनुरूप सारांश माप प्राप्त किया, लेकिन इसकी व्याख्या कैसे करें, इसके बारे में अनिश्चित हूं। मैंने सुना है कि .8 या इसके बाद के संस्करण आरओसी के लिए एक अच्छा एयूसी है, लेकिन क्या एक सटीक-रिकॉल वक्र के लिए एयूसी के लिए सामान्य कटऑफ समान होंगे?

जवाबों:


12

नहीं है कोई जादू कट ऑफ या तो एयूसी-आरओसी या एयूसी-पीआर के लिए। उच्च स्पष्ट रूप से बेहतर है, लेकिन यह पूरी तरह से आवेदन पर निर्भर है।

उदाहरण के लिए, यदि आप 0.8 के एयूसी के साथ लाभदायक निवेशों की सफलतापूर्वक पहचान कर सकते हैं या उस मामले के लिए मौके से अलग कुछ भी कह सकते हैं, तो मैं बहुत प्रभावित होऊंगा और आप बहुत समृद्ध होंगे। दूसरी ओर, 0.95 के एयूसी के साथ हस्तलिखित अंकों को वर्गीकृत करना अभी भी कला की वर्तमान स्थिति से काफी कम है।

इसके अलावा, जबकि सर्वोत्तम संभव एयूसी-आरओसी [0,1] में होने की गारंटी है, यह सटीक-रिकॉल कर्व्स के लिए सही नहीं है क्योंकि पीआर स्पेस के "अगम्य" क्षेत्र हो सकते हैं, यह इस बात पर निर्भर करता है कि वर्ग वितरण कितना विषम है। ( विवरण के लिए बॉयड एट अल (2012) द्वारा यह पेपर देखें)।


मुझे लगा कि हम एयूसी के कुछ हिस्सों में भी पहुंच से बाहर हैं। लेकिन गलत हो सकता है।
charles

4
मैंने जो पेपर जोड़ा है वह कहता है "एक संबंधित, लेकिन पहले से मान्यता प्राप्त, दो प्रकार के घटता के बीच का अंतर यह है कि, जबकि आरओसी अंतरिक्ष में कोई भी बिंदु प्राप्त करने योग्य है, न कि पीआर अंतरिक्ष में प्रत्येक बिंदु प्राप्त करने योग्य है।" पृष्ठ 2 के शीर्ष पर। मुझे लगता है कि यह इसलिए है क्योंकि आपको पी / आर के लिए अपने संग्रह में सभी दस्तावेजों को रैंक करना होगा, इसलिए यहां तक ​​कि सबसे निराशावादी प्रणाली अंततः एक प्रासंगिक आइटम को पुनः प्राप्त करेगी। ROC के लिए, हालांकि आप सभी सकारात्मक उदाहरण "-" और सभी नकारात्मक उदाहरण "+" कह सकते हैं, जो आपको 100% झूठी सकारात्मक / 100% झूठी नकारात्मक दर देगा।
मैट क्रूस

धन्यवाद! मुझे टिप्पणी करने से पहले कागज को देखना चाहिए था।
चार्ट

मैं मानता हूं कि कोई जादुई संख्या नहीं है। हालांकि, यह समझने में निश्चित रूप से मूल्य है कि एक 0.95 एयूसी-आरओसी, उदाहरण के लिए, इसका मतलब है कि आपने अनिवार्य रूप से समस्या को हल कर लिया है और एक बहुत, बहुत अच्छा क्लासिफायरियर है। जबकि लाभदायक निवेश खोजने के लिए 0.6 का एयूसी, सख्ती से, यादृच्छिक रूप से बेहतर हो सकता है, लेकिन ज्यादा बेहतर नहीं। जैसा कि आपने कहा, यह अभी भी मौका से अलग माना जाएगा, और अच्छी तरह से आपको एक अच्छी रणनीति मिल सकती है।
शिरी

0

.49 महान नहीं है, लेकिन इसकी व्याख्या आरओसी एयूसी से अलग है। ROC AUC के लिए, यदि आपने लॉजिस्टिक रिग्रेशन मॉडल का उपयोग करके .49 प्राप्त किया है, तो मैं कहूंगा कि आप यादृच्छिक से बेहतर नहीं कर रहे हैं। .49 PR AUC के लिए, हालाँकि यह उतना बुरा नहीं हो सकता है। मैं व्यक्तिगत परिशुद्धता को देखने और याद करने पर विचार करूंगा, शायद एक या दूसरा वह है जो आपके पीआरएयूसी को नीचे चला रहा है। रिकॉल आपको बताएगा कि उस 9% सकारात्मक वर्ग का आप वास्तव में कितना सही अनुमान लगा रहे हैं। परिशुद्धता आपको बताएगी कि आपने कितने अनुमान लगाए जो सकारात्मक नहीं थे। (झूठी सकारात्मक)। 50% रीकॉल खराब होगा जिसका अर्थ है कि आप अपने कई असंतुलित वर्ग का अनुमान नहीं लगा रहे हैं, लेकिन शायद 50% परिशुद्धता खराब नहीं होगी। आपकी स्थिति पर निर्भर करता है।


0

एक यादृच्छिक अनुमानक के पास आपके मामले में 0.09 का पीआर-एयूसी (9% सकारात्मक परिणाम) होगा, इसलिए आपके 0.49 निश्चित रूप से पर्याप्त वृद्धि है।

यदि यह एक अच्छा परिणाम है, तो अन्य एल्गोरिदम की तुलना में इसका आकलन किया जा सकता है, लेकिन आपने जिस विधि / डेटा का उपयोग किया है, उस पर विस्तार से जानकारी नहीं दी है।

इसके अतिरिक्त, आप अपने पीआर-वक्र के आकार का आकलन करना चाह सकते हैं। एक आदर्श पीआर-कर्व, टॉपलेट कोने से क्षैतिज कोने तक पहुंचता है और सीधे कोने में नीचे की ओर जाता है, जिसके परिणामस्वरूप 1. का पीआर-एयूसी होता है। कुछ अनुप्रयोगों में, पीआर-वक्र शुरू में एक मजबूत स्पाइक के बजाय जल्दी से दिखाता है। फिर से "यादृच्छिक अनुमानक रेखा" (आपके मामले में 0.09 परिशुद्धता पर क्षैतिज रेखा) के करीब छोड़ दें। यह "मजबूत" सकारात्मक परिणामों का एक अच्छा पता लगाने का संकेत देगा, लेकिन कम स्पष्ट उम्मीदवारों पर खराब प्रदर्शन।

यदि आप अपने एल्गोरिथ्म के कटऑफ पैरामीटर के लिए एक अच्छी सीमा ढूंढना चाहते हैं, तो आप पीआर-वक्र पर उस बिंदु पर विचार कर सकते हैं जो कि शीर्ष कोने के सबसे करीब है। या इससे भी बेहतर, यदि संभव हो तो क्रॉस सत्यापन पर विचार करें। आप एक विशिष्ट कटऑफ पैरामीटर के लिए सटीक और रिकॉल मान प्राप्त कर सकते हैं जो पीआर-एयूसी के मूल्य की तुलना में आपके आवेदन के लिए अधिक दिलचस्प हैं। विभिन्न एल्गोरिदम की तुलना करते समय AUC सबसे दिलचस्प होते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.