एआईसी और सी-स्टेटिस्टिक विभिन्न सवालों के जवाब देने की कोशिश कर रहे हैं। (हाल के वर्षों में सी-स्टैटिस्टिक के साथ कुछ मुद्दों को भी उठाया गया है, लेकिन मैं इसे एक तरफ ले जाऊंगा)
मोटे तौर पर बोल:
- एआईसी आपको बता रहा है कि विशिष्ट गलत वर्गीकरण लागत के लिए आपका मॉडल कितना अच्छा है।
- एयूसी आपको बता रहा है कि आपका मॉडल कितना अच्छा काम करेगा, औसतन, सभी गलत वर्गीकरण लागतों पर।
जब आप AIC की गणना करते हैं तो आप अपने लॉजिस्टिक को 0.9 की भविष्यवाणी कहकर 1 का पूर्वानुमान देते हैं (यानी 0 से अधिक 1 होने की संभावना), हालांकि इसकी आवश्यकता नहीं है। आप अपना लॉजिस्टिक स्कोर ले सकते हैं और कह सकते हैं "0.95 से ऊपर कुछ भी 1 है, नीचे सब कुछ 0 है"। आप ऐसा क्यों करेंगे? खैर यह सुनिश्चित करेगा कि आप केवल एक की भविष्यवाणी करते हैं जब आप वास्तव में आश्वस्त होते हैं। आपकी झूठी सकारात्मक दर वास्तव में बहुत कम होगी, लेकिन आपकी झूठी नकारात्मक आसमान छू लेगी। कुछ स्थितियों में यह कोई बुरी बात नहीं है - अगर आप किसी पर धोखाधड़ी का आरोप लगाने जा रहे हैं, तो आप शायद वास्तव में पहले निश्चित होना चाहते हैं। इसके अलावा, अगर सकारात्मक परिणामों का पालन करना बहुत महंगा है, तो आप उनमें से बहुत अधिक नहीं चाहते हैं।
यही कारण है कि यह लागत से संबंधित है। एक लागत है जब आप 1 को 0 के रूप में वर्गीकृत करते हैं और जब आप 0 को 1 के रूप में वर्गीकृत करते हैं, तो 1. आम तौर पर (आप एक डिफ़ॉल्ट सेटअप का उपयोग करते हैं) एआईसी लॉजिस्टिक प्रतिगमन के लिए विशेष मामले को संदर्भित करता है जब दोनों गलत वर्गीकरण समान रूप से होते हैं। महंगा। यही है, सकारात्मक या नकारात्मक के लिए किसी भी वरीयता के बिना, लॉजिस्टिक प्रतिगमन आपको सही भविष्यवाणियों की सर्वोत्तम संख्या प्रदान करता है।
आरओसी वक्र का उपयोग किया जाता है क्योंकि यह झूठे सकारात्मक के खिलाफ सही सकारात्मक प्लॉट करता है ताकि यह दिखाया जा सके कि यदि आप विभिन्न लागत आवश्यकताओं के तहत उपयोग करते हैं तो क्लासिफायर कैसे प्रदर्शन करेगा। सी-स्टेटिस्टिक के बारे में आता है क्योंकि कोई भी आरओसी वक्र जो किसी अन्य के ऊपर कड़ाई से झूठ बोलता है वह स्पष्ट रूप से एक हावी क्लासिफायरियर है। इसलिए सहज रूप से वक्र के नीचे के क्षेत्र को मापने के लिए यह सहज है कि समग्र रूप से कितना अच्छा है।
इसलिए मूल रूप से, यदि आप मॉडल की फिटिंग करते समय अपनी लागत जानते हैं, तो एआईसी (या समान) का उपयोग करें। यदि आप सिर्फ एक स्कोर का निर्माण कर रहे हैं, लेकिन नैदानिक सीमा को निर्दिष्ट नहीं कर रहे हैं, तो एयूसी दृष्टिकोण की आवश्यकता होती है (एयूसी के बारे में निम्नलिखित चेतावनी के साथ)।
तो सी-स्टेटिस्टिक / एयूसी / गिन्नी में क्या गलत है?
कई वर्षों के लिए एयूसी मानक दृष्टिकोण था, और अभी भी व्यापक रूप से उपयोग किया जाता है, हालांकि इसके साथ कई समस्याएं हैं। एक बात जिसने इसे विशेष रूप से आकर्षक बनाया, वह यह था कि वर्गीकरण के रैंकों पर एक विलकॉक्स परीक्षण से मेल खाती है। यह इस संभावना को मापा जाता है कि एक वर्ग के यादृच्छिक रूप से चुने गए सदस्य का स्कोर अन्य वर्ग के यादृच्छिक रूप से चुने गए सदस्य से अधिक होगा। समस्या यह है कि लगभग कभी भी उपयोगी मीट्रिक नहीं है।
एयूसी के साथ सबसे महत्वपूर्ण समस्याओं को डेविड हैंड ने कुछ साल पहले प्रचारित किया था। (नीचे संदर्भ देखें) समस्या की जड़ यह है कि जबकि एयूसी सभी लागतों पर औसत करता है, क्योंकि आरओसी वक्र का एक्स-अक्ष झूठी सकारात्मक दर है, जो भिन्न लागत शासन को असाइन करता है उसका वजन क्लासिफायरियर के बीच भिन्न होता है। इसलिए अगर आप दो अलग-अलग लॉजिस्टिक रिग्रेशनों पर एयूसी की गणना करते हैं तो यह दोनों मामलों में "एक ही चीज" को मापना नहीं होगा। इसका मतलब यह है कि यह AUC के आधार पर मॉडल की तुलना करने के लिए बहुत कम समझ में आता है।
हाथ ने एक निश्चित लागत भार का उपयोग करके एक वैकल्पिक गणना का प्रस्ताव रखा, और इसे एच-माप कहा जाता है - आर में एक पैकेज है जिसे कहा जाता है hmeasure
कि यह गणना करेगा, और मुझे विश्वास है कि तुलना के लिए एयूसी है।
AUC के साथ समस्याओं पर कुछ संदर्भ:
रिसीवर ऑपरेटिंग विशेषता वक्र के तहत क्षेत्र क्लासिफायरियर प्रदर्शन का एक उपयुक्त उपाय कब है? डीजे हैंड, सी। एनाग्नोस्टोपॉलोस पैटर्न रिकॉग्निशन लेटर्स 34 (2013) 492-495
(मैंने पाया कि यह एक विशेष रूप से सुलभ और उपयोगी स्पष्टीकरण है)