पी> 0.5 कटऑफ लॉजिस्टिक रिग्रेशन के लिए "इष्टतम" क्यों नहीं है?


13

पूर्व: मैं कटऑफ का उपयोग करने के गुणों के बारे में परवाह नहीं करता हूं या नहीं, या किसी को कटऑफ कैसे चुनना चाहिए। मेरा प्रश्न विशुद्ध रूप से गणितीय है और जिज्ञासा के कारण है।

लॉजिस्टिक रिग्रेशन क्लास ए बनाम क्लास बी की पश्चवर्ती सशर्त संभावना को मॉडल करता है और यह एक हाइपरप्लेन को फिट करता है जहां पीछे की सशर्त संभावनाएं बराबर होती हैं। इसलिए सिद्धांत रूप में, मैं समझ गया कि 0.5 वर्गीकरण बिंदु सेट बैलेंस की परवाह किए बिना कुल त्रुटियों को कम करेगा, क्योंकि यह बाद की संभावना को मॉडल करता है (यह मानते हुए कि आप लगातार एक ही वर्ग अनुपात का सामना करते हैं)।

अपने वास्तविक जीवन उदाहरण में, मैं अपने वर्गीकरण कटऑफ (लगभग 51% सटीकता) के रूप में P> 0.5 का उपयोग करके बहुत खराब सटीकता प्राप्त करता हूं। हालाँकि, जब मैंने AUC को देखा तो यह 0.99 से ऊपर है। इसलिए मैंने कुछ अलग-अलग कटऑफ मूल्यों को देखा और पाया कि P> 0.6 ने मुझे 98% सटीकता (90% छोटे वर्ग के लिए और 99% बड़े वर्ग के लिए) दी - केवल 2% मामलों में मिसकैरेज हुआ।

कक्षाएं भारी असंतुलित (1: 9) हैं और यह एक उच्च-आयामी समस्या है। हालांकि, मैंने कक्षाओं को प्रत्येक क्रॉस-वैलिडेशन सेट के बराबर आवंटित किया ताकि मॉडल फिट और फिर भविष्यवाणी के बीच कक्षाओं के संतुलन के बीच अंतर न हो। मैंने मॉडल फिट से और पूर्वानुमानों में समान डेटा का उपयोग करने की भी कोशिश की और वही मुद्दा हुआ।

मुझे इस कारण में दिलचस्पी है कि 0.5 त्रुटियों को कम क्यों नहीं करेगा, मुझे लगा कि यह डिजाइन द्वारा होगा यदि मॉडल क्रॉस-एन्ट्रापी नुकसान को कम करके फिट किया जा रहा है।

क्या किसी के पास कोई प्रतिक्रिया है कि ऐसा क्यों होता है? क्या यह दंड जोड़ने के कारण है, क्या कोई समझा सकता है कि क्या हो रहा है?



Scortchi, क्या आप संभवतः थोड़ा अधिक विशिष्ट हो सकते हैं जो आपके द्वारा कटऑफ के बारे में सवाल प्रासंगिक है? मैंने पोस्ट किए जाने से पहले संबंधित प्रश्न या उत्तर नहीं देखा, न ही अब।
felix000

क्षमा करें, मेरा मतलब यह नहीं था कि वे सभी आपके प्रश्न का उत्तर देते थे, लेकिन मुझे लगा कि वे सभी प्रदर्शन मेट्रिक के रूप में किसी भी कट-ऑफ में सटीकता का उपयोग नहीं करने का सुझाव देने में प्रासंगिक थे, या कम से कम एक मनमाने ढंग से कट-ऑफ की उपयोगिता से गणना नहीं की गई थी। समारोह।
Scortchi - को पुनः स्थापित मोनिका

जवाबों:


16

आपको लॉजिस्टिक रिग्रेशन मॉडल से अनुमानित श्रेणियां प्राप्त करने की आवश्यकता नहीं है। यह अनुमानित संभावनाओं के साथ ठीक रह सकता है। यदि आपको पूर्वानुमानित श्रेणियां मिलती हैं, तो आपको उस जानकारी का उपयोग कुछ और करने के लिए नहीं करना चाहिए, क्योंकि यह कहा जाता है कि 'यह अवलोकन इस श्रेणी में सबसे अच्छा वर्गीकृत है'। उदाहरण के लिए, आपको किसी मॉडल का चयन करने के लिए 'सटीकता' / प्रतिशत सही का उपयोग नहीं करना चाहिए।

उन चीजों को कहने के बाद, शायद ही कभी टिप्पणियों को वर्गीकृत करने के लिए इष्टतम कटऑफ होने जा रहा है। यह कैसे हो सकता है की एक सहज ज्ञान प्राप्त करने के लिए, कल्पना करें कि आपके पास सकारात्मक श्रेणी में टिप्पणियों के साथ था । जब आप अपने कटऑफ के रूप में उपयोग करते हैं , तो एक सरल, इंटरसेप्ट-ओनली मॉडल आसानी से झूठे नकारात्मक हो सकता है । दूसरी ओर, यदि आपने अभी सब कुछ सकारात्मक कहा है, तो आपके पास गलत सकारात्मक होगा, लेकिन सही। .50N=1009949.50199%

अधिक आम तौर पर, लॉजिस्टिक प्रतिगमन व्याख्यात्मक चर के एक समारोह के रूप में टिप्पणियों के लिए सकारात्मक संभावना को फिट करने की कोशिश कर रहा है। यह कटऑफ के आसपास अनुमानित संभावनाओं को केंद्रित करके सटीकता को अधिकतम करने की कोशिश नहीं कर रहा है । यदि आपका नमूना सकारात्मक नहीं है, तो कोई कारण नहीं है। प्रतिशत अधिकतम सही होगा।.5050%.50


नमस्ते, आपके स्पष्टीकरण के लिए धन्यवाद, हालांकि मुझे इंटरसेप्ट-ओनली मॉडल के साथ उदाहरण नहीं मिलता है। इंटरसेप्ट-ओनली मॉडल के साथ आपके पास किसी भी उदाहरण के लिए 0.99 होगा और इसलिए आप किसी भी सीमा मूल्य पर 99% सटीकता लेंगे।
अबेकेयर

0

मुझे लगता है, यह कई कारणों से हो सकता है:

  1. आपके डेटा में गैर-रैखिकता हो सकती है, इसलिए रैखिक रूप से भार जोड़ते हुए, हमेशा सही संभावनाओं में परिणाम नहीं हो सकता है
  2. वेरिएबल्स अच्छे भविष्यवक्ताओं और कमजोर भविष्यवक्ताओं का मिश्रण हैं, इसलिए स्कोर की जनसंख्या लगभग 5 है। यह कमजोर भविष्यवक्ताओं या मजबूत भविष्यवक्ताओं के कम प्रभाव के कारण है। जैसा कि आप ऊपर जाते हैं, आपको लोग मिलते हैं, जिनके लिए भविष्यवक्ताओं का प्रभाव मजबूत है

तो, आपको अपने वांछित आउटपुट जैसे कि सटीकता, सटीकता आदि को अधिकतम करने के लिए कभी-कभी कट-ऑफ मूल्य के साथ खेलना पड़ सकता है, क्योंकि अधिकांश समय आबादी बहुत सजातीय नहीं होती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.