वास्तव में बहुत अच्छा सवाल है, और मुझे लगता है कि ज्यादातर लोग वास्तव में एक सहज ज्ञान युक्त स्तर पर नहीं समझते हैं। AUCवास्तव में अक्सर विभिन्न कारणों के लिए बाइनरी वर्गीकरण के लिए सटीकता से अधिक पसंद किया जाता है। सबसे पहले, चलो वास्तव में क्या AUCहै के बारे में बात करते हैं । ईमानदारी से, सबसे व्यापक रूप से इस्तेमाल की जाने वाली प्रभावकारिता मैट्रिक्स में से एक होने के लिए, यह आश्चर्यजनक रूप से सटीक है कि यह कैसे AUCकाम करता है।
AUCArea Under the Curveआप किस वक्र के लिए पूछते हैं? खैर, यह ROCवक्र होगा। रिसीवर ऑपरेटिंग कैरेक्टरROC के लिए खड़ा है , जो वास्तव में थोड़ा गैर-सहज है। इसका निहितार्थ उन स्थितियों से निपटना है जहां आपके पास बहुत तिरछा नमूना वितरण है, और एक भी वर्ग के लिए ओवरफिट नहीं करना चाहते हैं।AUC
एक महान उदाहरण स्पैम का पता लगाने में है। आम तौर पर, स्पैम डेटासेट केवल हैम या नहीं-स्पैम के प्रति पक्षपाती होते हैं। यदि आपका डेटा सेट 90% हैम है, तो आप यह कहकर बहुत अच्छी सटीकता प्राप्त कर सकते हैं कि हर एक ईमेल हैम है, जो स्पष्ट रूप से कुछ ऐसा है जो एक गैर-आदर्श क्लासिफायर का संकेत देता है। आइए कुछ ऐसे मैट्रिक्स से शुरू करें जो हमारे लिए कुछ अधिक उपयोगी हैं, विशेष रूप से वास्तविक सकारात्मक दर ( TPR) और झूठी सकारात्मक दर ( FPR):

अब इस ग्राफ में, TPRविशेष रूप से सभी सकारात्मक के लिए वास्तविक सकारात्मक का FPRअनुपात है , और सभी नकारात्मक के लिए झूठी सकारात्मक का अनुपात है। (ध्यान रखें, यह केवल द्विआधारी वर्गीकरण के लिए है।) इस तरह के एक ग्राफ पर, यह पता लगाने के लिए बहुत सरल होना चाहिए कि सभी 0 या सभी 1 की भविष्यवाणी क्रमशः (0,0)और (1,1)क्रमशः के अंकों में परिणाम करेगी । यदि आप इन रेखाओं के माध्यम से एक रेखा खींचते हैं तो आपको कुछ इस तरह मिलता है:

जो मूल रूप से एक विकर्ण रेखा की तरह दिखता है (यह है), और कुछ आसान ज्यामिति से, आप देख सकते हैं कि इस AUCतरह के मॉडल की 0.5ऊंचाई (आधार और आधार दोनों 1 हैं)। इसी तरह, यदि आप 0 और 1 के यादृच्छिक वर्गीकरण की भविष्यवाणी करते हैं, तो मान लें कि 90% 1 है, तो आप उस बिंदु को प्राप्त कर सकते हैं (0.9, 0.9), जो फिर से उस विकर्ण रेखा के साथ आता है।
अब आता है दिलचस्प हिस्सा। क्या होगा अगर हम केवल 0 और 1 की भविष्यवाणी नहीं कर रहे थे? यदि इसके बजाय, हम यह कहना चाहते थे कि, सैद्धांतिक रूप से हम एक कटऑफ सेट करने जा रहे थे, जिसके ऊपर हर परिणाम 1 था, और जिसके नीचे हर परिणाम एक 0. था। इसका मतलब यह होगा कि चरम सीमा पर आपको मूल स्थिति मिलती है जहां आप सभी 0 के हैं और सभी 1 (क्रमशः 0 और 1 के कटऑफ पर), लेकिन यह भी मध्यवर्ती राज्यों की एक श्रृंखला है 1x1जो आपके ग्राफ में शामिल हैं ROC। व्यवहार में आपको कुछ इस तरह मिलता है:

इसलिए मूल रूप से, जब आप वास्तव में एक AUCअति सटीकता के साथ काम कर रहे होते हैं, तो ऐसा कुछ होता है, जो मॉडल के लिए जाने वाले लोगों को दृढ़ता से हतोत्साहित करेगा, लेकिन यह भेदभावपूर्ण नहीं होगा, क्योंकि यह वास्तव में केवल उन मॉडलों के लिए चयन करेगा जो झूठी सकारात्मक और वास्तविक सकारात्मक दरों को प्राप्त करते हैं यादृच्छिक मौका से काफी ऊपर हैं, जो सटीकता के लिए गारंटी नहीं है।