क्या बाइनरी वर्गीकरण सेटिंग में सटीकता एक अनुचित स्कोरिंग नियम है?


13

मैं हाल ही में संभाव्य कक्षा के लिए उचित स्कोरिंग नियमों के बारे में सीख रहा हूं। इस वेबसाइट पर कई थ्रेड्स ने इस बात पर जोर दिया है कि सटीकता एक अनुचित स्कोरिंग नियम है और इसका उपयोग लॉजिस्टिक रिग्रेशन जैसे एक संभाव्य मॉडल द्वारा उत्पन्न भविष्यवाणियों की गुणवत्ता का मूल्यांकन करने के लिए नहीं किया जाना चाहिए।

हालांकि, मैंने जो कुछ अकादमिक पेपर पढ़े हैं, उनमें द्विआधारी वर्गीकरण सेटिंग में एक (गैर-सख्त) उचित स्कोरिंग नियम के उदाहरण के रूप में गर्भपात नुकसान दिया है। सबसे स्पष्ट व्याख्या जो मुझे मिल सकती है, वह इस पृष्ठ में थी। पेज 7 के नीचे। मेरी समझ में सबसे अच्छा है, मिसकैरेजिफिकेशन लॉस को कम करना अधिकतम सटीकता के बराबर है, और पेपर में समीकरण सहज रूप से समझ में आते हैं।

उदाहरण के लिए: कागज के अंकन का उपयोग करते हुए, यदि ब्याज की श्रेणी का वास्तविक सशर्त संभाव्यता (कुछ विशेषता वेक्टर x दिया गया है ) of = 0.7 है, तो किसी भी पूर्वानुमान q > 0.5 में अपेक्षित हानि आर (η | q ) = होगी। 0.7 (0) + 0.3 (1) = 0.3, और किसी भी क्ष 0.5 0.7 की एक उम्मीद नुक़सान होता। इसलिए नुकसान फ़ंक्शन q = 0.7 = 0.7 पर कम से कम किया जाएगा और परिणामस्वरूप उचित होगा; सच्ची सशर्त संभावनाओं और पूर्वानुमानों की संपूर्ण सीमा का सामान्यीकरण वहाँ से काफी सीधा लगता है।

उपर्युक्त गणनाओं और कथनों को सही मानते हुए, एक गैर-अद्वितीय न्यूनतम की कमियां और 0.5 से ऊपर की सभी भविष्यवाणियां समान न्यूनतम हानि को साझा करना स्पष्ट हैं। मुझे अभी भी पारंपरिक विकल्पों जैसे कि लॉग स्कोर, बैरियर स्कोर, आदि पर सटीकता का उपयोग करने का कोई कारण नहीं दिखता है। हालांकि, क्या यह कहना सही है कि द्विआधारी सेटिंग में संभाव्य मॉडल का मूल्यांकन करते समय सटीकता एक उचित स्कोरिंग नियम है, या मैं एक बना रहा हूं गलती - या तो गर्भपात के नुकसान की मेरी समझ में, या इसे सटीकता के साथ बराबर करने में?

जवाबों:


15

टी एल; डॉ

सटीकता एक अनुचित स्कोरिंग नियम है। इसका उपयोग न करें।

थोड़ा लंबा संस्करण

दरअसल, सटीकता भी स्कोरिंग नियम नहीं है। इसलिए यह पूछना कि क्या यह (सख्ती से) उचित है श्रेणी त्रुटि है। हम सबसे कह सकते हैं कि अतिरिक्त धारणाओं के तहत , सटीकता एक स्कोरिंग नियम के अनुरूप है जो अनुचित, असंतोषजनक और भ्रामक है। (इसका उपयोग न करें।)

आपका भ्रम

आपका भ्रम इस तथ्य से उपजा है कि आपके द्वारा बताए गए कागज के अनुसार गर्भपात नुकसान, स्कोरिंग नियम नहीं है।

विवरण: स्कोरिंग नियम बनाम वर्गीकरण मूल्यांकन

y{0,1}q^=P^(Y=1)(0,1)P(Y=1)=η>0.5q^

q^y

s:(q^,y)s(q^,y).

sq^=ηsq^=η

sq^iyi

y^{0,1}

a:(y^,y)a(y^,y)={1,y^=y0,y^y.

इसलिए, सटीकता एक स्कोरिंग नियम नहीं है । यह एक वर्गीकरण मूल्यांकन है। (यह एक ऐसा शब्द है जिसे मैंने अभी-अभी खोजा है; इसे साहित्य में नहीं देखना चाहिए।)

q^y^θ

y^(q^,θ):={1,q^θ0,q^<θ.

θ=0.5q^iyi

q^q^y^=y^(q^,θ)q^

q^=ηθ=0.5q^(0,1)

y^q^

q^θθ=0.5q^=0.99q^θq^η

θ=0.2y=1y=0q^q^=0.25q^θ

इसलिए, सटीकता या गर्भपात हानि भ्रामक हो सकती है।

इसके अलावा, सटीकता और गर्भपात नुकसान अधिक जटिल परिस्थितियों में अतिरिक्त मान्यताओं के तहत अनुचित हैं जहां परिणाम आईआईडी नहीं हैं। फ्रैंक हरेल ने अपने ब्लॉग पोस्ट में क्लासीफिकेशन एक्यूरेसी एंड अदर डिसकंटेंट इम्प्रूवमेंट एक्यूरेसी स्कोरिंग रूल्स के कारण डैमेज कॉज किया, जिसमें उनकी एक किताब से एक उदाहरण का हवाला दिया गया है, जहां सटीकता या मिसकैरेजिफिकेशन लॉस का इस्तेमाल करने से मिसकैरेज मॉडल को बढ़ावा मिलेगा, क्योंकि वे सही सशर्त प्रेडिक्टिव प्रेडिक्टिव द्वारा ऑप्टिमाइज़ नहीं किए जाते हैं संभावना।

θ

अधिक जानकारी पाया जा सकता है कि वर्गीकरण मॉडल का आकलन करने के लिए सटीकता सबसे अच्छा उपाय क्यों नहीं है?

तल - रेखा

सटीकता का उपयोग न करें। न ही गर्भपात का नुकसान।

निपिक: "सख्त" बनाम "सख्ती से"

क्या हमें "सख्त" उचित स्कोरिंग नियमों के बारे में बात करनी चाहिए, या "सख्त" उचित स्कोरिंग नियमों के बारे में? "सख्त" "उचित" को संशोधित करता है, न कि "स्कोरिंग नियम"। ("उचित स्कोरिंग नियम" और "कड़ाई से उचित स्कोरिंग नियम" हैं, लेकिन कोई "सख्त स्कोरिंग नियम" नहीं हैं।) जैसे, "कड़ाई" एक विशेषण होना चाहिए, विशेषण नहीं और "कड़ाई" का उपयोग किया जाना चाहिए। जैसा कि साहित्य में अधिक सामान्य है, उदाहरण के लिए, तिलमन गेनिंग द्वारा कागजात।


आपके पोस्ट के कई पहलू हैं, जिनका मैं पालन नहीं करता (या मेरे द्वारा पूछे गए प्रश्न के लिए प्रासंगिक नहीं है), लेकिन आइए "आप जिस पेपर का हवाला देते हैं, उसके अनुसार मिसकॉलिफिकेशन लॉस के साथ शुरू करें। यह स्कोरिंग नियम नहीं है।" सूत्र कागज में बहुत स्पष्ट रूप से दिया गया है: L1 (1-q) = 1 [q <= 0.5] (खराब स्वरूपण को क्षमा करें)। यह सभी व्यावहारिक उद्देश्यों के लिए, एक चरण फ़ंक्शन है जो किसी भी संभाव्य भविष्यवाणी को सीधे मैप करता है और इसके संबंधित परिणाम 0 या 1 के नुकसान के लिए है। इसके अलावा, 0.5 केवल एक पैरामीटर है जो उस चरण को नियंत्रित करता है जहां कदम होता है; मैं "धारणा" को देखने में विफल हूं। यह कैसा स्कोरिंग नियम नहीं है?
ज़्यज़ेवा

1
q

1
प्रासंगिकता टिप्पणी के लिए, मैं गलत तरीके से उतरने पर माफी मांगता हूं। मैंने प्रश्न के दायरे को विशेष रूप से उचित बनाम अनुचित के बारे में केंद्रित करने की कोशिश की, न कि असंतोषजनक / भ्रामक / आदि। मैं आपके द्वारा दिए गए लिंक से अच्छी तरह परिचित हूं और मिसकैरेजिफिकेशन कॉस्ट या बॉटम लाइन पर आपकी टिप्पणियों से कोई समस्या नहीं है। मैं केवल कथन "सटीकता अनुचित है" के अधिक कठोर स्पष्टीकरण की मांग कर रहा हूं, विशेष रूप से यह देखते हुए कि यह पेपर बाइनरी परिणामों के सामान्य उपयोग के मामले के लिए अन्यथा सुझाव देता है। मैं आपके साथ इस बारे में चर्चा करने और अपने विस्तृत विचार साझा करने के लिए समय निकालने के लिए आपकी सराहना करता हूं।
ज़िज़्वा

1
आगे प्रतिबिंब के बाद, मुझे लगता है कि मेरे पास उस बिंदु की स्पष्ट समझ है जो आप बना रहे हैं। यदि हम 0.6 के चरण (0.6 की दहलीज पर वर्गीकरण के अनुसार) के साथ एक ही चरण फ़ंक्शन पर विचार करते हैं, तो स्कोरिंग नियम अनुचित है, क्योंकि अपेक्षित हानि अब सीमा में n के लिए एक भविष्यवाणी q = n से कम नहीं होगी। 0.5, 0.6]। आम तौर पर, यह 0.5 के अलावा हर दहलीज पर अनुचित होगा, और अक्सर अभ्यास में हम गर्भपात की असममित लागत के कारण अन्य थ्रेसहोल्ड का उपयोग करना चाहते हैं, जैसा कि आपने बताया।
ज़िज़्वा

1
मुझे लगता है कि सटीकता स्पष्ट रूप से संभावनाओं के मूल्यांकन के लिए एक खराब मीट्रिक है, भले ही 0.5 की सीमा उचित हो। मैंने अपने द्वारा किए गए मूल पद के अंत में उतना ही कहा, लेकिन इससे मुझे स्पष्ट विवरणों में मदद मिली, जिससे मुझे परेशानी हो रही थी - अर्थात्, कुछ ऐसा जो मुझे गलत समझ में आया, यह दिखाते हुए कि सटीकता द्विआधारी परिणामों के लिए उचित है (जब यह केवल वास्तविकता है प्रतीत होता है काले और सफेद बयान "सटीकता अनुचित है" के साथ एक 0.5 दहलीज के बहुत विशिष्ट मामले पर लागू होता है कि मैं बहुत कुछ देख रहा हूं। आपकी मदद और धैर्य के लिए धन्यवाद।
ज़िज़्वा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.