एक दुर्लभ घटना लॉजिस्टिक प्रतिगमन के लिए कटऑफ़ संभावना कैसे चुनें


11

मेरे पास 1000 पॉज़िटिव के साथ 100,000 अवलोकन (9 डमी इंडिकेटर वैरिएबल) हैं। लॉजिस्टिक रिग्रेशन इस मामले में ठीक काम करना चाहिए, लेकिन कटऑफ संभावना मुझे पहेली।

आम साहित्य में, हम 1s और 0s की भविष्यवाणी करने के लिए 50% कटऑफ चुनते हैं। मैं ऐसा नहीं कर सकता क्योंकि मेरा मॉडल ~ 1% का अधिकतम मूल्य देता है। तो एक दहलीज 0.007 या उसके आसपास कहीं हो सकती है।

मुझे समझ में आता है कि ROCवक्र और वक्र के नीचे का क्षेत्र कैसे मुझे एक ही डेटासेट के लिए दो LR मॉडल चुनने में मदद कर सकता है। हालांकि, आरओसी मुझे एक इष्टतम कटऑफ संभावना का चयन करने में मदद नहीं करता है जो कि एक आउट-ऑफ-सैंपल डेटा पर मॉडल का परीक्षण करने के लिए उपयोग किया जा सकता है।

क्या मुझे बस एक कटऑफ मूल्य का उपयोग करना चाहिए जो कम से कम करता है misclassification rate? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )

जोड़ा -> इतनी कम घटना दर के लिए, मेरी गर्भस्राव दर झूठी सकारात्मकता की एक बड़ी संख्या से प्रभावित होती है। जबकि कुल ब्रह्मांड दर भी अच्छी है क्योंकि कुल ब्रह्मांड का आकार भी बड़ा है, लेकिन मेरे मॉडल में इतनी झूठी सकारात्मकता नहीं होनी चाहिए (क्योंकि यह एक निवेश रिटर्न मॉडल है)। 5/10 कोफ़ महत्वपूर्ण हैं।


3
यह उनकी संभावनाओं के साथ दो प्रकार के गर्भपात की सापेक्ष लागत है जो कट-ऑफ का निर्धारण करना चाहिए। यदि आप केवल संभाव्यता मॉडल को मान्य करना चाहते हैं, तो परीक्षण सेट पर लागू होने पर उसके एयूसी या बैरियर स्कोर की गणना करें।
Scortchi - को पुनः स्थापित मोनिका

यह एक अच्छा जवाब हो सकता है: आंकड़े.stackexchange.com/a/25398/5597
Tae-Sung Shin

यहाँ और यहाँ भी प्रासंगिक उत्तर ।
Scortchi - को पुनः स्थापित मोनिका

@ Tae-SungShin लिंक के लिए धन्यवाद। ये उपयोगी है। मुझे लगता है कि मेरे प्रश्न का कोई निश्चित उत्तर नहीं है। मेरा मॉडल झूठी सकारात्मकता की उच्च संख्या से ग्रस्त है।
मैडी

@Scortchi धन्यवाद एयूसी का उपयोग करना उपयोगी हो सकता है यदि मैं 2 विभिन्न लॉजिस्टिक रिग्रेशन मॉडल (अतिरिक्त भविष्यवक्ताओं के साथ) की तुलना कर रहा था, लेकिन मुझे यकीन नहीं है कि यह मेरे मामले में मेरी मदद कैसे करता है। यह मुझे मेरे मॉडल की कुल सफलता की संभावना देता है लेकिन इससे मुझे कटऑफ की संभावना को चुनने में मदद नहीं मिलती है।
मैडी

जवाबों:


5

मैं असहमत हूं कि 50% कटऑफ या तो स्वाभाविक रूप से मान्य है या साहित्य द्वारा समर्थित है। एकमात्र ऐसा मामला जहां इस तरह की कटौती को उचित ठहराया जा सकता है, एक केस-कंट्रोल डिज़ाइन में होता है जहां परिणाम की व्यापकता बिल्कुल 50% होती है, लेकिन फिर भी पसंद कुछ शर्तों के अधीन होगी। मुझे लगता है कि कट-ऑफ की पसंद के लिए मुख्य तर्क नैदानिक ​​परीक्षण की वांछित परिचालन विशेषता है।

वांछित संवेदनशीलता या विशिष्टता को प्राप्त करने के लिए कट-ऑफ को चुना जा सकता है। इसके एक उदाहरण के लिए, चिकित्सा उपकरणों के साहित्य से परामर्श करें। संवेदनशीलता अक्सर एक निश्चित राशि पर सेट होती है: उदाहरणों में 80%, 90%, 95%, 99%, 99.9%, या 99.99% शामिल हैं। संवेदनशीलता / विशिष्टता वाले ट्रेडऑफ़ को टाइप I और टाइप II त्रुटियों के नुकसान की तुलना में किया जाना चाहिए। अक्सर बार, सांख्यिकीय परीक्षण के साथ, एक प्रकार की त्रुटि का नुकसान अधिक होता है और इसलिए हम उस जोखिम को नियंत्रित करते हैं। फिर भी, ये बंदरगाह शायद ही कभी मात्रात्मक हैं। उसके कारण, मुझे चयन विधियों में कटौती करने के लिए प्रमुख आपत्तियां हैं जो कि भविष्यवाणिय सटीकता के एकल माप पर भरोसा करते हैं: वे व्यक्त करते हैं, गलत तरीके से, जो हानि पहुँचाता है और इसकी मात्रा निर्धारित की गई है।

आपका बहुत अधिक गलत सकारात्मकता का मुद्दा इसके विपरीत का एक उदाहरण है: टाइप II त्रुटि अधिक हानिकारक हो सकती है। तब आप वांछित विशिष्टता प्राप्त करने के लिए सीमा निर्धारित कर सकते हैं, और उस सीमा पर प्राप्त संवेदनशीलता की रिपोर्ट कर सकते हैं।

यदि आप पाते हैं कि दोनों अभ्यास के लिए स्वीकार्य हैं, तो आपका जोखिम मॉडल काम नहीं करता है और इसे अस्वीकार कर दिया जाना चाहिए।

संवेदनशीलता और विशिष्टता आसानी से गणना की जाती है या संभावित कट-ऑफ मूल्यों की एक पूरी श्रृंखला में तालिका से ऊपर देखी जाती है। आरओसी के साथ परेशानी यह है कि यह ग्राफिक से विशिष्ट कट-ऑफ जानकारी को छोड़ देता है। इसलिए ROC कटऑफ मान चुनने के लिए अप्रासंगिक है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.