वास्तव में मॉडल फिट के लिए एआईसी और सी-स्टेटिस्टिक (एयूसी) में क्या अंतर है?


29

एकेइकी सूचना मानदंड (एआईसी) और सी-स्टेटिस्टिक (आरओसी वक्र के तहत क्षेत्र) लॉजिस्टिक प्रतिगमन के लिए मॉडल फिट के दो उपाय हैं। मुझे यह समझाने में परेशानी हो रही है कि जब दो उपायों के परिणाम सुसंगत नहीं हैं तो क्या हो रहा है। मुझे लगता है कि वे मॉडल फिट के कुछ अलग पहलुओं को माप रहे हैं, लेकिन वे विशिष्ट पहलू क्या हैं?

मेरे पास 3 लॉजिस्टिक रिग्रेशन मॉडल हैं। मॉडल M0 में कुछ मानक सहसंयोजक हैं। मॉडल M1, X1 से M0 को जोड़ता है; मॉडल M2 X2 को M0 में जोड़ता है (इसलिए M1 और M2 नेस्टेड नहीं हैं)।

एम 1 से एम 1 और एम 2 दोनों के लिए एआईसी में अंतर लगभग 15 है, यह दर्शाता है कि X1 और X2 दोनों मॉडल फिट में सुधार करते हैं, और एक ही राशि के बारे में।

सी-आँकड़े हैं: एम 0, 0.70; एम 1, 0.73; एम 2 0.72। M0 से M1 तक c-आँकड़ा में अंतर महत्वपूर्ण है (DeLong et al 1988 का तरीका), लेकिन M0 से M2 में अंतर महत्वपूर्ण नहीं है, यह दर्शाता है कि X1 मॉडल फिट में सुधार करता है, लेकिन X2 नहीं करता है।

X1 नियमित रूप से एकत्र नहीं किया गया है। X2 को नियमित रूप से एकत्र किया जाना चाहिए, लेकिन लगभग 40% मामलों में गायब है। हम यह तय करना चाहते हैं कि एक्स 1 को इकट्ठा करना शुरू करना है, या एक्स 2 के संग्रह में सुधार करना है, या दोनों चर को छोड़ना है।

एआईसी से हम यह निष्कर्ष निकालते हैं कि चर मॉडल के समान सुधार करते हैं। X2 के संग्रह में सुधार करना शायद आसान है, एक पूरी तरह से नया चर (X1) इकट्ठा करना शुरू करने से, इसलिए हम X2 संग्रह को बेहतर बनाने का लक्ष्य रखेंगे। लेकिन सी-स्टेटिस्टिक से, एक्स 1 मॉडल में सुधार करता है और एक्स 2 नहीं करता है, इसलिए हमें एक्स 2 के बारे में भूलना चाहिए और एक्स 1 को इकट्ठा करना शुरू करना चाहिए।

जैसा कि हमारी सिफारिश निर्भर करती है कि हम किस सांख्यिकीय पर ध्यान केंद्रित करते हैं, हमें स्पष्ट रूप से उस अंतर को समझने की आवश्यकता है जो वे माप रहे हैं।

किसी भी सलाह का स्वागत है।

जवाबों:


25

एआईसी और सी-स्टेटिस्टिक विभिन्न सवालों के जवाब देने की कोशिश कर रहे हैं। (हाल के वर्षों में सी-स्टैटिस्टिक के साथ कुछ मुद्दों को भी उठाया गया है, लेकिन मैं इसे एक तरफ ले जाऊंगा)

मोटे तौर पर बोल:

  • एआईसी आपको बता रहा है कि विशिष्ट गलत वर्गीकरण लागत के लिए आपका मॉडल कितना अच्छा है।
  • एयूसी आपको बता रहा है कि आपका मॉडल कितना अच्छा काम करेगा, औसतन, सभी गलत वर्गीकरण लागतों पर।

जब आप AIC की गणना करते हैं तो आप अपने लॉजिस्टिक को 0.9 की भविष्यवाणी कहकर 1 का पूर्वानुमान देते हैं (यानी 0 से अधिक 1 होने की संभावना), हालांकि इसकी आवश्यकता नहीं है। आप अपना लॉजिस्टिक स्कोर ले सकते हैं और कह सकते हैं "0.95 से ऊपर कुछ भी 1 है, नीचे सब कुछ 0 है"। आप ऐसा क्यों करेंगे? खैर यह सुनिश्चित करेगा कि आप केवल एक की भविष्यवाणी करते हैं जब आप वास्तव में आश्वस्त होते हैं। आपकी झूठी सकारात्मक दर वास्तव में बहुत कम होगी, लेकिन आपकी झूठी नकारात्मक आसमान छू लेगी। कुछ स्थितियों में यह कोई बुरी बात नहीं है - अगर आप किसी पर धोखाधड़ी का आरोप लगाने जा रहे हैं, तो आप शायद वास्तव में पहले निश्चित होना चाहते हैं। इसके अलावा, अगर सकारात्मक परिणामों का पालन करना बहुत महंगा है, तो आप उनमें से बहुत अधिक नहीं चाहते हैं।

यही कारण है कि यह लागत से संबंधित है। एक लागत है जब आप 1 को 0 के रूप में वर्गीकृत करते हैं और जब आप 0 को 1 के रूप में वर्गीकृत करते हैं, तो 1. आम तौर पर (आप एक डिफ़ॉल्ट सेटअप का उपयोग करते हैं) एआईसी लॉजिस्टिक प्रतिगमन के लिए विशेष मामले को संदर्भित करता है जब दोनों गलत वर्गीकरण समान रूप से होते हैं। महंगा। यही है, सकारात्मक या नकारात्मक के लिए किसी भी वरीयता के बिना, लॉजिस्टिक प्रतिगमन आपको सही भविष्यवाणियों की सर्वोत्तम संख्या प्रदान करता है।

आरओसी वक्र का उपयोग किया जाता है क्योंकि यह झूठे सकारात्मक के खिलाफ सही सकारात्मक प्लॉट करता है ताकि यह दिखाया जा सके कि यदि आप विभिन्न लागत आवश्यकताओं के तहत उपयोग करते हैं तो क्लासिफायर कैसे प्रदर्शन करेगा। सी-स्टेटिस्टिक के बारे में आता है क्योंकि कोई भी आरओसी वक्र जो किसी अन्य के ऊपर कड़ाई से झूठ बोलता है वह स्पष्ट रूप से एक हावी क्लासिफायरियर है। इसलिए सहज रूप से वक्र के नीचे के क्षेत्र को मापने के लिए यह सहज है कि समग्र रूप से कितना अच्छा है।

इसलिए मूल रूप से, यदि आप मॉडल की फिटिंग करते समय अपनी लागत जानते हैं, तो एआईसी (या समान) का उपयोग करें। यदि आप सिर्फ एक स्कोर का निर्माण कर रहे हैं, लेकिन नैदानिक ​​सीमा को निर्दिष्ट नहीं कर रहे हैं, तो एयूसी दृष्टिकोण की आवश्यकता होती है (एयूसी के बारे में निम्नलिखित चेतावनी के साथ)।

तो सी-स्टेटिस्टिक / एयूसी / गिन्नी में क्या गलत है?

कई वर्षों के लिए एयूसी मानक दृष्टिकोण था, और अभी भी व्यापक रूप से उपयोग किया जाता है, हालांकि इसके साथ कई समस्याएं हैं। एक बात जिसने इसे विशेष रूप से आकर्षक बनाया, वह यह था कि वर्गीकरण के रैंकों पर एक विलकॉक्स परीक्षण से मेल खाती है। यह इस संभावना को मापा जाता है कि एक वर्ग के यादृच्छिक रूप से चुने गए सदस्य का स्कोर अन्य वर्ग के यादृच्छिक रूप से चुने गए सदस्य से अधिक होगा। समस्या यह है कि लगभग कभी भी उपयोगी मीट्रिक नहीं है।

एयूसी के साथ सबसे महत्वपूर्ण समस्याओं को डेविड हैंड ने कुछ साल पहले प्रचारित किया था। (नीचे संदर्भ देखें) समस्या की जड़ यह है कि जबकि एयूसी सभी लागतों पर औसत करता है, क्योंकि आरओसी वक्र का एक्स-अक्ष झूठी सकारात्मक दर है, जो भिन्न लागत शासन को असाइन करता है उसका वजन क्लासिफायरियर के बीच भिन्न होता है। इसलिए अगर आप दो अलग-अलग लॉजिस्टिक रिग्रेशनों पर एयूसी की गणना करते हैं तो यह दोनों मामलों में "एक ही चीज" को मापना नहीं होगा। इसका मतलब यह है कि यह AUC के आधार पर मॉडल की तुलना करने के लिए बहुत कम समझ में आता है।

हाथ ने एक निश्चित लागत भार का उपयोग करके एक वैकल्पिक गणना का प्रस्ताव रखा, और इसे एच-माप कहा जाता है - आर में एक पैकेज है जिसे कहा जाता है hmeasureकि यह गणना करेगा, और मुझे विश्वास है कि तुलना के लिए एयूसी है।

AUC के साथ समस्याओं पर कुछ संदर्भ:

  • रिसीवर ऑपरेटिंग विशेषता वक्र के तहत क्षेत्र क्लासिफायरियर प्रदर्शन का एक उपयुक्त उपाय कब है? डीजे हैंड, सी। एनाग्नोस्टोपॉलोस पैटर्न रिकॉग्निशन लेटर्स 34 (2013) 492-495

    (मैंने पाया कि यह एक विशेष रूप से सुलभ और उपयोगी स्पष्टीकरण है)


2
और यहां डीजे हैंड द्वारा एक और पेपर दिया गया है: क्लासिफायरिफायर प्रदर्शन को मापना: आरओसी वक्र , मशीन लर्निंग (2009) 77: 103-123 के तहत क्षेत्र के लिए एक सुसंगत विकल्प
CHL

वह वही था जिसकी मैं तलाश कर रहा था - हाँ वह इस पर पहला पहला पेपर था (हालाँकि मुझे लगता है कि यह बाद के कुछ पेपरों की तुलना में अधिक तकनीकी दर्शकों पर लक्षित है)।
कोरोन

3
R2

मैं कोरोन के जवाब से उलझन में हूं, मुझे लगा कि एआईसी के पास मॉडल के पूर्वानुमान के प्रदर्शन से कोई लेना-देना नहीं है और यह सिर्फ मॉडल जटिलता के साथ कारोबार किए गए डेटा की संभावना का एक उपाय है।
Zhubarb

@Berkan यकीन नहीं है कि आप "भविष्य कहनेवाला प्रदर्शन के साथ कुछ नहीं करने के लिए" क्या मतलब है, जब तक कि आप बस इसका मतलब यह एक नमूना बाहर नहीं नमूना है? (जितना संभव हो उतना बेहतर होगा जो उन डेटा बिंदुओं की "भविष्यवाणी" करता है)। मुद्दा यह है कि एआईसी एक विशिष्ट, पहले से चुने गए कार्य के लिए है, जबकि एआईसी उनमें से एक सेट पर औसत है। यदि आप संभावना (यानी सीमा, लागत, व्यापकता ...) जानते हैं तो आप एआईसी का उपयोग कर सकते हैं।
कोरोन

3

क्लिनिकल डायग्नोस्टिक्स में असली दुनिया के इस्तेमाल का हवाला देते हुए हैंड पेपर का कोई आधार नहीं है। उनके पास 0.5 एयूसी के साथ एक सैद्धांतिक वक्र है, जो इसके बजाय एक परिपूर्ण क्लासिफायरियर है। वह वास्तविक दुनिया के डेटा के एक सेट का उपयोग करता है, जहां मॉडल को हाथ से बाहर फेंक दिया जाएगा, क्योंकि वे बहुत खराब हैं, और जब माप के आसपास विश्वास अंतराल के लिए लेखांकन (डेटा प्रदान नहीं किया गया, लेकिन अनुमान नहीं) यादृच्छिक होने की संभावना है । वास्तविक दुनिया (या यहां तक ​​कि प्रशंसनीय सिमुलेशन) डेटा की कमी को देखते हुए, यह एक खोखला कागज है। मैं व्यक्तिगत रूप से हजार रोगियों (स्वतंत्रता की पर्याप्त डिग्री के साथ) के हजारों सहपाठियों के विश्लेषण में शामिल रहा हूं। उस संदर्भ में, उनके तर्क गैर-संवेदी हैं।

वह अतिशयोक्ति (किसी भी संदर्भ में एक अच्छा संकेत नहीं) के लिए प्रवण है, और असमर्थित सामान्यीकरण बनाता है, उदाहरण के लिए, लागतों को नहीं जाना जा सकता है। चिकित्सा में, ऐसी लागतें स्वीकार की जाती हैं, जैसे स्क्रीनिंग परीक्षणों के लिए 10% सकारात्मक भविष्य कहनेवाला मूल्य, और चिकित्सीय हस्तक्षेपों के लिए $ 100,000 प्रति गुणवत्ता समायोजित जीवन वर्ष। मुझे यह विश्वास करना कठिन है कि क्रेडिट स्कोरिंग में, लागतों को अच्छी तरह से समझा नहीं जा सकता है। यदि वह कह रहा है (अस्पष्ट रूप से) कि अलग-अलग झूठी सकारात्मक और झूठी नकारात्मक अलग-अलग लागतें ले जाती हैं, जबकि यह एक बहुत ही दिलचस्प विषय है, यह समान नहीं है बाइनरी क्लासीफायर।

यदि उनका कहना है कि आरओसी आकार मायने रखता है, तो परिष्कृत उपयोगकर्ताओं के लिए, यह स्पष्ट है, और गैर-परिष्कृत उपयोगकर्ताओं के पास चिंता करने के लिए पूरी तरह से अधिक है, उदाहरण के लिए, व्यापकता को सकारात्मक और नकारात्मक पूर्वानुमान मूल्यों में शामिल करना।

अंत में, मैं यह समझने के लिए एक नुकसान में हूं कि विभिन्न क्लासिफायर को मॉडल के नैदानिक ​​(या वित्तीय) द्वारा निर्धारित विभिन्न, वास्तविक दुनिया के कट-ऑफ के आधार पर कैसे नहीं आंका जा सकता है। जाहिर है, प्रत्येक मॉडल के लिए अलग-अलग कट-ऑफ चुने जाएंगे। केवल AUCs के आधार पर मॉडल की तुलना नहीं की जाएगी। क्लासिफायर का कोई फर्क नहीं पड़ता, लेकिन वक्र का आकार होता है।


-1

मेरे लिए, लब्बोलुआब यह है कि सी-स्टैटिस्टिक (एयूसी) अलग-अलग स्वतंत्र चर वाले मॉडल की तुलना करते समय समस्याग्रस्त हो सकता है (हैंडसम को "क्लासिफायर" के रूप में संदर्भित करता है), यह अभी भी अन्य अनुप्रयोगों में उपयोगी है। उदाहरण के लिए, सत्यापन अध्ययन जहां एक ही मॉडल की तुलना विभिन्न अध्ययन आबादी (डेटा सेट) में की जाती है। यदि एक मॉडल या जोखिम सूचकांक / स्कोर को एक आबादी में अत्यधिक भेदभावपूर्ण दिखाया गया है, लेकिन दूसरों में नहीं, इसका मतलब यह हो सकता है कि यह सामान्य रूप से बहुत अच्छा उपकरण नहीं है, लेकिन विशिष्ट उदाहरणों में हो सकता है।


3
R2
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.