वर्गीकरण प्रदर्शन माप जो संवेदनशीलता और विशिष्टता को जोड़ती है?


9

मेरे पास 2-लेबल वाले डेटा हैं, जिस पर मैं कई क्लासिफ़ायर का उपयोग करके वर्गीकरण कर रहा हूं। और डेटासेट अच्छी तरह से संतुलित हैं। क्लासिफायर के प्रदर्शन का आकलन करते समय, मुझे यह ध्यान रखना होगा कि क्लासिफायर न केवल सही सकारात्मकता का निर्धारण करने में कितना सही है, बल्कि सही नकारात्मक भी। इसलिए, अगर मैं सटीकता का उपयोग करता हूं, और यदि क्लासिफायर सकारात्मकता के प्रति पक्षपाती है और सब कुछ सकारात्मक के रूप में वर्गीकृत करता है, तो मुझे लगभग 50% सटीकता प्राप्त होगी, भले ही यह किसी भी वास्तविक नकारात्मक को वर्गीकृत करने में विफल रहा हो। यह संपत्ति सटीक और याद करने के लिए विस्तारित है क्योंकि वे केवल एक वर्ग पर ध्यान केंद्रित करते हैं, और एफ 1-स्कोर के बदले। (यह मुझे इस पेपर से भी समझ में आता है, उदाहरण के लिए " परे सटीकता, एफ-स्कोर और आरओसी: प्रदर्शन के मूल्यांकन के लिए भेदभाव के उपाय का एक परिवार ")।

इसलिए, मैं संवेदनशीलता और विशिष्टता (टीपीआर और टीएनआर) का उपयोग करके यह देख सकता हूं कि प्रत्येक वर्ग के लिए क्लासिफायर कैसे किया जाता है, जहां मेरा लक्ष्य इन मूल्यों को अधिकतम करना है।

मेरा प्रश्न यह है कि मैं एक ऐसे उपाय की तलाश कर रहा हूं जो इन दोनों मूल्यों को एक सार्थक माप में मिला दे । मैंने उस कागज में दिए गए उपायों पर ध्यान दिया, लेकिन मैंने इसे गैर-तुच्छ पाया। और मेरी समझ के आधार पर मैं सोच रहा था कि हम एफ-स्कोर जैसा कुछ क्यों नहीं लागू कर सकते, लेकिन सटीक और याद रखने के बजाय मैं संवेदनशीलता और विशिष्टता का उपयोग करूंगा? इसलिए सूत्र और मेरा उद्देश्य अधिकतम करना होगा यह उपाय। मुझे यह बहुत प्रतिनिधि लगता है। क्या पहले से ही एक समान सूत्र है? और यह समझ में आता है या यह भी गणितीय ध्वनि है?

my Performance Measure=2sensitivityspecificitysensitivity+specificity

जवाबों:


1

मैं कहूंगा कि कोई विशेष या केवल एक उपाय नहीं हो सकता है जिसे आपको ध्यान में रखना चाहिए।

पिछली बार जब मैंने संभाव्य वर्गीकरण किया था तो मेरे पास आर पैकेज आरओसीआर था और फाल्स पॉजिटिव और फाल्स निगेटिव के लिए स्पष्ट मूल्य थे।

मैंने 0 से 1 तक के सभी कटऑफ-पॉइंट पर विचार किया और इस कटऑफ-पॉइंट का चयन करते समय कई उपायों का इस्तेमाल किया। बेशक मैं पहले से ही सटीकता को वर्गीकृत करने के सामान्य उपाय के लिए एयूसी माप था। लेकिन मेरे लिए यह एकमात्र संभावना नहीं थी।

एफपी और एफएन मामलों के लिए मूल्य आपके विशेष मॉडल के बाहर आने चाहिए, शायद ये कुछ विषय विशेषज्ञ द्वारा प्रदान किए गए हैं?

उदाहरण के लिए ग्राहक मंथन विश्लेषण में यह गलत तरीके से अनुमान लगाने के लिए अधिक महंगा हो सकता है कि ग्राहक मंथन नहीं कर रहा है, लेकिन यह भी कि यह सही करने के लिए सेवाओं के लिए कीमतों में एक सामान्य कमी देने के लिए महंगा होगा, ताकि उन्हें सही समूहों के लिए लक्षित किया जा सके।

-Analyst


वास्तव में मेरे मामले के लिए यह समान है। क्योंकि एफपी और एफएन मामले मेरे मॉडल में महंगे होने वाले हैं। मैंने आखिरकार आपके द्वारा सुझाए गए "कई उपायों का उपयोग" के समान कुछ करने का प्रयास किया। मैंने प्रत्येक वर्ग लेबल के लिए एफ-स्कोर की गणना की, और मॉडल का आकलन करने के लिए मैं इन दोनों मूल्यों का उपयोग कुछ लागत फ़ंक्शन के साथ करता हूं जो कि लाभ की गणना करने के लिए सटीक (दोनों वर्गों के लिए) का उपयोग करता है और इससे एफपी और एफएन मामलों से हुए नुकसान को घटाता है।
कलाजी

3

वर्गीकरण सटीकता, संवेदनशीलता, विशिष्टता, और उनमें से कोई भी सरल संयोजन सभी अनुचित स्कोरिंग नियम हैं। यही है, वे एक फर्जी मॉडल द्वारा अनुकूलित हैं। इनका उपयोग करने से आप गलत सुविधाओं का चयन कर सकते हैं, गलत वजन दे सकते हैं, और उप-विषयक निर्णय ले सकते हैं। कई तरीकों में से एक निर्णय उप-योग है जो आपको प्राप्त होने वाला झूठा विश्वास है जब भविष्यवाणी की संभावना इन उपायों के उपयोग से उत्पन्न सीमा के पास होती है। संक्षेप में, जो कुछ भी गलत हो सकता है वह इन उपायों से गलत हो जाता है। दो अच्छी तरह से फिट मॉडल की तुलना करने के लिए उनका उपयोग करना आपको भ्रमित करेगा।


1
मैं मानता हूं कि कोई भी उत्पन्न मॉडल एक "फर्जी मॉडल" है जैसा आपने उल्लेख किया है। लेकिन फिर भी मुझे एक मॉडल चुनने के लिए, आखिरकार इसकी गुणवत्ता का आकलन करने के लिए एक उपाय की आवश्यकता है। यह मानते हुए कि मेरी सुविधाओं का चयन पहले से ही किया गया है (सुविधाओं के विभिन्न सेटों के साथ कई डेटासेट की कोशिश कर रहा है), और मैं यह निर्धारित करने के लिए 5-गुना क्रॉस सत्यापन का उपयोग कर रहा हूं कि क्या मेरे क्लासिफायर डेटा से अधिक हो रहे हैं, ये सरल "स्कोरिंग नियम" सबसे अधिक हैं साहित्य में व्यापक रूप से इस्तेमाल किया। तब आप और क्या उपाय सुझाएंगे? अधिकांश उपाय LR +/-, ROC, और AUC सहित इन मूल्यों के संयोजन पर निर्भर करते हैं।
कालाजी

सबसे पहले आप 5-गुना cv में उपयोग किए गए 5 मॉडल फिट में से प्रत्येक के लिए खरोंच से सभी खोजपूर्ण / मॉडलिंग चरणों को दोहराने के लिए सावधान हैं? स्वर्ण मानक गुणवत्ता माप लॉग संभावना है और इससे प्राप्त मात्राएं जैसे कि और विचलन। बाइनरी यह एक लॉगरिदमिक प्रायिकता स्कोरिंग नियम की ओर जाता है। उस स्थिति के लिए आप एक अन्य उचित स्कोर का उपयोग कर सकते हैं, ब्रायर स्कोर (अनुमानित भविष्यवाणियों में चुकता त्रुटि)। R2Y
फ्रैंक हार्डेल

मेरे पढ़ने के आधार पर यह मेरे मामले में लागू होता है जब मेरे मॉडल असतत मूल्यों के बजाय संभावनाएं उत्पन्न करते हैं (यानी एक संभावना जो कि 0 या 1 के उत्पादन के बजाय कक्षा 0 या 1 से संबंधित है)। और बदले में, इसे क्लासिफायर के कार्यान्वयन के साथ करना था, उदाहरण के लिए यह एक नैवे बेस के क्लासिफायरियर पर लागू होता है लेकिन 1-एनएन क्लासिफायरियर के लिए नहीं। ध्यान दें कि मैं क्लासिफायर को लागू नहीं कर रहा हूं, मैं अपने मॉडल बनाने के लिए वेका में कुछ क्लासिफायर का उपयोग कर रहा हूं। शायद मैं यहाँ थोड़ा भ्रमित हूँ। धन्यवाद।
कालजी

1
यदि आप जिस विधि का उपयोग कर रहे हैं, वह संभावनाएं उत्पन्न नहीं करता है तो मैं एक अन्य विधि खोजने का सुझाव देता हूं।
फ्रैंक हरेल

यदि सटीक और संवेदनशीलता की वास्तविक लागत (मूल पद पर लागू नहीं) के बीच अच्छी तरह से समझ में असमानताएं हैं, तो आप उन लोगों के उपयोग से क्यों बचेंगे? क्या एक पक्षपाती क्रॉस-एन्ट्रापी-त्रुटि बेहतर होगी (उदाहरण के लिए, (1-c) * लॉग (1-p) शब्द का दंड दोगुना है)?
मैक्स कैंडोसिया
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.