एयूसी बनाम मानक सटीकता के लाभ


63

मैं वक्र (एयूसी) के तहत क्षेत्र में देखना शुरू कर रहा था और इसकी उपयोगिता के बारे में थोड़ा भ्रमित हूं। जब पहली बार मुझे समझाया गया था, तो एयूसी प्रदर्शन का एक बड़ा पैमाना लग रहा था, लेकिन अपने शोध में मैंने पाया है कि कुछ का दावा है कि इसका लाभ ज्यादातर सीमांत है, यह उच्च मानक सटीकता माप और कम एयूसी के साथ 'भाग्यशाली' मॉडल को पकड़ने के लिए सबसे अच्छा है। ।

तो क्या मुझे मॉडल को मान्य करने के लिए AUC पर निर्भर होने से बचना चाहिए या संयोजन सबसे अच्छा होगा? आपकी सभी मदद का धन्यवाद।


5
अत्यधिक असंतुलित समस्या पर विचार करें। यह वह जगह है जहां आरओसी एयूसी बहुत लोकप्रिय है, क्योंकि वक्र वर्ग आकार को संतुलित करता है। डेटा सेट पर 99% सटीकता प्राप्त करना आसान है जहां 99% ऑब्जेक्ट एक ही कक्षा में हैं।
एनोनी-मौसे

3
"एयूसी का निहित लक्ष्य उन परिस्थितियों से निपटना है जहां आपके पास बहुत तिरछा नमूना वितरण है, और एक भी वर्ग से अधिक नहीं करना चाहते हैं।" मुझे लगा कि ये स्थितियां ऐसी थीं जहां एयूसी ने खराब प्रदर्शन किया और सटीक-रीकॉल-ग्राफ / क्षेत्र उनके अधीन थे।
जेनएससीडीसी

@ जेनएससीडीसी, इन स्थितियों में मेरे अनुभव से एयूसी अच्छा प्रदर्शन करता है और जैसा कि नीचे बताया गया है कि यह आरओसी वक्र से है जो आपको उस क्षेत्र से मिलता है। पीआर ग्राफ भी उपयोगी है (ध्यान दें कि रिकॉल टीपीआर, आरओसी में से एक कुल्हाड़ियों के समान है) लेकिन परिशुद्धता एफपीआर के समान नहीं है इसलिए पीआर प्लॉट आरओसी से संबंधित है लेकिन समान नहीं है। सूत्रों का कहना है: stats.stackexchange.com/questions/132777/... और stats.stackexchange.com/questions/7207/...
एलेक्सी

जवाबों:


59

वास्तव में बहुत अच्छा सवाल है, और मुझे लगता है कि ज्यादातर लोग वास्तव में एक सहज ज्ञान युक्त स्तर पर नहीं समझते हैं। AUCवास्तव में अक्सर विभिन्न कारणों के लिए बाइनरी वर्गीकरण के लिए सटीकता से अधिक पसंद किया जाता है। सबसे पहले, चलो वास्तव में क्या AUCहै के बारे में बात करते हैं । ईमानदारी से, सबसे व्यापक रूप से इस्तेमाल की जाने वाली प्रभावकारिता मैट्रिक्स में से एक होने के लिए, यह आश्चर्यजनक रूप से सटीक है कि यह कैसे AUCकाम करता है।

AUCArea Under the Curveआप किस वक्र के लिए पूछते हैं? खैर, यह ROCवक्र होगा। रिसीवर ऑपरेटिंग कैरेक्टरROC के लिए खड़ा है , जो वास्तव में थोड़ा गैर-सहज है। इसका निहितार्थ उन स्थितियों से निपटना है जहां आपके पास बहुत तिरछा नमूना वितरण है, और एक भी वर्ग के लिए ओवरफिट नहीं करना चाहते हैं।AUC

एक महान उदाहरण स्पैम का पता लगाने में है। आम तौर पर, स्पैम डेटासेट केवल हैम या नहीं-स्पैम के प्रति पक्षपाती होते हैं। यदि आपका डेटा सेट 90% हैम है, तो आप यह कहकर बहुत अच्छी सटीकता प्राप्त कर सकते हैं कि हर एक ईमेल हैम है, जो स्पष्ट रूप से कुछ ऐसा है जो एक गैर-आदर्श क्लासिफायर का संकेत देता है। आइए कुछ ऐसे मैट्रिक्स से शुरू करें जो हमारे लिए कुछ अधिक उपयोगी हैं, विशेष रूप से वास्तविक सकारात्मक दर ( TPR) और झूठी सकारात्मक दर ( FPR):

ROC कुल्हाड़ियों

अब इस ग्राफ में, TPRविशेष रूप से सभी सकारात्मक के लिए वास्तविक सकारात्मक का FPRअनुपात है , और सभी नकारात्मक के लिए झूठी सकारात्मक का अनुपात है। (ध्यान रखें, यह केवल द्विआधारी वर्गीकरण के लिए है।) इस तरह के एक ग्राफ पर, यह पता लगाने के लिए बहुत सरल होना चाहिए कि सभी 0 या सभी 1 की भविष्यवाणी क्रमशः (0,0)और (1,1)क्रमशः के अंकों में परिणाम करेगी । यदि आप इन रेखाओं के माध्यम से एक रेखा खींचते हैं तो आपको कुछ इस तरह मिलता है:

त्रिभुज की तरह का

जो मूल रूप से एक विकर्ण रेखा की तरह दिखता है (यह है), और कुछ आसान ज्यामिति से, आप देख सकते हैं कि इस AUCतरह के मॉडल की 0.5ऊंचाई (आधार और आधार दोनों 1 हैं)। इसी तरह, यदि आप 0 और 1 के यादृच्छिक वर्गीकरण की भविष्यवाणी करते हैं, तो मान लें कि 90% 1 है, तो आप उस बिंदु को प्राप्त कर सकते हैं (0.9, 0.9), जो फिर से उस विकर्ण रेखा के साथ आता है।

अब आता है दिलचस्प हिस्सा। क्या होगा अगर हम केवल 0 और 1 की भविष्यवाणी नहीं कर रहे थे? यदि इसके बजाय, हम यह कहना चाहते थे कि, सैद्धांतिक रूप से हम एक कटऑफ सेट करने जा रहे थे, जिसके ऊपर हर परिणाम 1 था, और जिसके नीचे हर परिणाम एक 0. था। इसका मतलब यह होगा कि चरम सीमा पर आपको मूल स्थिति मिलती है जहां आप सभी 0 के हैं और सभी 1 (क्रमशः 0 और 1 के कटऑफ पर), लेकिन यह भी मध्यवर्ती राज्यों की एक श्रृंखला है 1x1जो आपके ग्राफ में शामिल हैं ROC। व्यवहार में आपको कुछ इस तरह मिलता है: विकिपीडिया के सौजन्य से

इसलिए मूल रूप से, जब आप वास्तव में एक AUCअति सटीकता के साथ काम कर रहे होते हैं, तो ऐसा कुछ होता है, जो मॉडल के लिए जाने वाले लोगों को दृढ़ता से हतोत्साहित करेगा, लेकिन यह भेदभावपूर्ण नहीं होगा, क्योंकि यह वास्तव में केवल उन मॉडलों के लिए चयन करेगा जो झूठी सकारात्मक और वास्तविक सकारात्मक दरों को प्राप्त करते हैं यादृच्छिक मौका से काफी ऊपर हैं, जो सटीकता के लिए गारंटी नहीं है।


क्या आप जोड़ सकते हैं कि AUC एफ 1-स्कोर की तुलना कैसे करता है?
डैन

7
@ दान- सबसे बड़ा अंतर यह है कि आपको एयूसी के साथ निर्णय सीमा निर्धारित करने की आवश्यकता नहीं है (यह अनिवार्य रूप से मापने की संभावना है कि स्पैम गैर-स्पैम से ऊपर है)। एफ 1-स्कोर के लिए निर्णय सीमा की आवश्यकता होती है। बेशक, आप हमेशा निर्णय सीमा को एक ऑपरेटिंग पैरामीटर के रूप में सेट कर सकते हैं और एफ 1-स्कोर प्लॉट कर सकते हैं।
DSea

17

एयूसी और सटीकता काफी अलग चीजें हैं। एयूसी बाइनरी क्लासिफायर पर लागू होता है जिसमें आंतरिक रूप से निर्णय सीमा की कुछ धारणा होती है। उदाहरण के लिए, लॉजिस्टिक रिग्रेशन सकारात्मक / नकारात्मक देता है, जो इस आधार पर होता है कि लॉजिस्टिक फ़ंक्शन थ्रेशोल्ड से अधिक / छोटा है, आमतौर पर डिफ़ॉल्ट रूप से 0.5। जब आप अपनी सीमा चुनते हैं, तो आपके पास एक क्लासिफायरियर होता है। आपको एक चुनना है।

थ्रेसहोल्ड की दी गई पसंद के लिए, आप सटीकता की गणना कर सकते हैं, जो पूरे डेटा सेट में वास्तविक सकारात्मकता और नकारात्मकता का अनुपात है।

एयूसी मापता है कि वास्तविक सकारात्मक दर (याद) और झूठी सकारात्मक दर से व्यापार कैसे बंद होता है, इसलिए इस अर्थ में यह पहले से ही कुछ और माप रहा है। इससे भी महत्वपूर्ण बात, AUC दहलीज का कार्य नहीं है। यह क्लासिफायरियर का मूल्यांकन है क्योंकि सभी संभावित मूल्यों पर सीमा भिन्न होती है। यह एक व्यापक मीट्रिक है, आंतरिक मूल्य की गुणवत्ता का परीक्षण करता है जो क्लासिफायरियर उत्पन्न करता है और फिर एक सीमा से तुलना करता है। यह दहलीज की एक विशेष पसंद की गुणवत्ता का परीक्षण नहीं कर रहा है।

एयूसी की एक अलग व्याख्या है, और यह है कि यह भी संभावना है कि यादृच्छिक रूप से चुने गए सकारात्मक उदाहरण को उदाहरण के लिए क्लासिफायरियर के आंतरिक मूल्य के अनुसार एक यादृच्छिक रूप से चुने गए नकारात्मक उदाहरण से ऊपर स्थान दिया गया है।

यदि आपके पास एक एल्गोरिथ्म है जो केवल उदाहरणों पर रैंकिंग उत्पन्न करता है, तो भी AUC कम्प्यूटेशनल है। यदि आप वास्तव में केवल एक ब्लैक-बॉक्स क्लासिफायर है, और आंतरिक सीमा के साथ एक नहीं है तो एयूसी कम्प्यूटेशनल नहीं है। ये आमतौर पर तय करते हैं कि दोनों में से कौन सा हाथ में समस्या के लिए भी उपलब्ध है।

एयूसी है, मुझे लगता है, अधिक व्यापक उपाय, हालांकि कम स्थितियों में लागू होता है। यह सटीकता से कड़ाई से बेहतर नहीं है; ये अलग है। यह इस बात पर निर्भर करता है कि आप सच्ची सकारात्मकता, झूठी नकारात्मक इत्यादि का अधिक ध्यान रखते हैं या नहीं।

एफ-माप इस अर्थ में सटीकता की तरह अधिक है कि यह एक क्लासिफायरियर और इसकी थ्रेशोल्ड सेटिंग का एक फ़ंक्शन है। लेकिन यह सटीक बनाम रिकॉल (वास्तविक सकारात्मक दर) को मापता है, जो कि ऊपर के समान नहीं है।


इसलिए, यदि मैं टिप्पणियों के एक सेट के लिए एक द्विआधारी परिणाम की भविष्यवाणी करना चाहता हूं, जिसके लिए समूह आकार समान हैं (अर्थात् एक केस-नियंत्रण अध्ययन), तो क्या मैं सटीकता के साथ एयूसी का उपयोग करके कुछ भी हासिल कर सकता हूं? या इस तरह के अध्ययनों में एयूसी का विशिष्ट उपयोग केवल सम्मेलन के कारण है?
जो

एयूसी मापता है कि क्लासिफायर ने नकारात्मक उदाहरणों की तुलना में सकारात्मक उदाहरणों को कितना अच्छा रैंक किया है, जबकि सटीकता किसी दिए गए निर्णय सीमा के लिए सही बनाम गलत सकारात्मक को मापता है। मुझे लगता है कि यह इस बात पर निर्भर करता है कि आप क्या आंकलन करना चाहते हैं। एयूसी यकीनन थ्रेशोल्ड की पसंद से स्वतंत्र क्लासिफायर का अधिक व्यापक उपाय है, लेकिन, क्लासिफायर का कोई भी वास्तविक उपयोग वर्गीकृत करने के लिए थ्रेशोल्ड चुनने पर निर्भर करेगा
सीन ओवेन

4

मैं यह बताना चाहूंगा कि आपको प्रदर्शन माप कैसे चुनना चाहिए। इससे पहले मैं सटीकता और AUC के विशिष्ट प्रश्न का उल्लेख करूँगा।

जैसा कि पहले कहा गया था, एक क्लासिफायर के रूप में बहुसंख्यक रन का उपयोग कर असंतुलित डेटासेट पर उच्च सटीकता का कारण होगा जो इसे एक भ्रामक उपाय बना देगा। अच्छे और बुरे के लिए आत्मविश्वास सीमा पर एयूसी एकत्र करें। अच्छे के लिए, आपको सभी आत्मविश्वास के स्तर के लिए एक वजन परिणाम मिलता है। बुरा यह है कि आप आमतौर पर केवल उस आत्मविश्वास स्तर के बारे में परवाह करते हैं जिसका आप वास्तव में उपयोग करेंगे और बाकी अप्रासंगिक हैं।

हालांकि, मैं एक मॉडल के लिए एक उचित प्रदर्शन उपाय चुनने के बारे में टिप्पणी करना चाहता हूं। आपको किसी मॉडल की उसके लक्ष्य से तुलना करनी चाहिए। मॉडल का लक्ष्य एक प्रश्न नहीं है ओएस मशीन लर्निंग या स्टेटिस्टिक, इन बिजनेस डोमेन और इसकी आवश्यकताओं का सवाल है।

यदि आप सोने के लिए खुदाई कर रहे हैं (एक ऐसा परिदृश्य जिसमें आपको एक सच्चे सकारात्मक से बहुत अधिक लाभ होता है, झूठी सकारात्मक लागत बहुत अधिक नहीं है) तो याद रखना एक अच्छा उपाय है।

यदि आप यह तय करने की कोशिश कर रहे हैं कि लोगों पर एक जटिल चिकित्सा प्रक्रिया करना है (झूठी सकारात्मक की उच्च लागत, उम्मीद है कि झूठी नकारात्मक की कम लागत), परिशुद्धता वह उपाय है जिसका आपको उपयोग करना चाहिए।

आपके द्वारा उपयोग किए जा सकने वाले बहुत सारे उपाय हैं। आप उन्हें विभिन्न तरीकों से भी जोड़ सकते हैं।

हालांकि, कोई सार्वभौमिक "सर्वश्रेष्ठ" उपाय नहीं है। आपकी आवश्यकताओं के लिए सबसे अच्छा मॉडल है, जो इसे अधिकतम करेगा वह आपके लाभ को अधिकतम करेगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.