अनुचित स्कोरिंग नियम का उपयोग करना कब उचित है?


27

मार्कले और स्टेयर्स (2013) लिखते हैं:

औपचारिक रूप से एक उचित स्कोरिंग नियम को परिभाषित करने के लिए, चलो को एक बर्नौली परीक्षण d का एक संभावित पूर्वानुमान है, जिसमें सच्ची सफलता प्रायिकता p है । उचित स्कोरिंग नियम मेट्रिक्स हैं जिनके अपेक्षित मानों को कम किया जाता है यदि f = pपी=पी

मुझे लगता है कि यह अच्छा है क्योंकि हम पूर्वानुमानकर्ताओं को ऐसे पूर्वानुमान उत्पन्न करने के लिए प्रोत्साहित करना चाहते हैं जो ईमानदारी से उनकी सच्ची मान्यताओं को दर्शाते हैं, और अन्यथा उन्हें करने के लिए विकृत प्रोत्साहन नहीं देना चाहते हैं।

क्या कोई वास्तविक दुनिया के उदाहरण हैं जिनमें अनुचित स्कोरिंग नियम का उपयोग करना उचित है?

संदर्भ
मर्कल, ईसी, और स्टीवर्स, एम। (2013)। कड़ाई से उचित स्कोरिंग नियम चुनना। निर्णय विश्लेषण, 10 (4), 292-304


1
मुझे लगता है कि विंकलर एंड जोस "स्कोरिंग नियम" (2010) के अंतिम पृष्ठ का पहला कॉलम, जिसे मर्कल एंड स्टेवर्स (2013) का हवाला देते हुए एक उत्तर दिया गया है। अर्थात्, यदि उपयोगिता स्कोर का एक छोटा परिवर्तन नहीं है (जो जोखिम के फैलाव और इस तरह से उचित ठहराया जा सकता है), अपेक्षित उपयोगिता का अधिकतमकरण अपेक्षित स्कोर के अधिकतमकरण के साथ संघर्ष में होगा
रिचर्ड हार्डी

जवाबों:


25

यह अनुचित स्कोरिंग नियम का उपयोग करने के लिए उपयुक्त है जब उद्देश्य वास्तव में पूर्वानुमान है, लेकिन अनुमान नहीं है। मुझे वास्तव में परवाह नहीं है कि एक और भविष्यद्रोही धोखा दे रहा है या नहीं जब मैं वह हूं जो पूर्वानुमान लगाने जा रहा हूं।

उचित स्कोरिंग नियम यह सुनिश्चित करते हैं कि आकलन प्रक्रिया के दौरान मॉडल सही डेटा जनरेट करने की प्रक्रिया (DGP) के पास जाए। यह आशाजनक लगता है क्योंकि जैसे-जैसे हम सच्चे DGP से संपर्क करेंगे हम किसी भी नुकसान के कार्य के पूर्वानुमान के संदर्भ में भी अच्छा करेंगे। पकड़ यह है कि ज्यादातर समय (वास्तव में वास्तव में लगभग हमेशा) हमारे मॉडल खोज स्थान में सही DGP नहीं होता है। हम अंत में कुछ कार्यात्मक रूप के साथ सच्चे DGP का अनुमान लगाते हैं जो हम प्रस्तावित करते हैं।

इस अधिक यथार्थवादी सेटिंग में, यदि हमारा पूर्वानुमान कार्य वास्तविक DGP के संपूर्ण घनत्व का पता लगाने की तुलना में आसान है, तो हम वास्तव में बेहतर कर सकते हैं। यह विशेष रूप से वर्गीकरण के लिए सच है। उदाहरण के लिए सही DGP बहुत जटिल हो सकता है लेकिन वर्गीकरण कार्य बहुत आसान हो सकता है।

यारोस्लाव बुलटोव ने अपने ब्लॉग में निम्नलिखित उदाहरण दिया:

http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html

जैसा कि आप नीचे देख सकते हैं कि असली घनत्व विगली है लेकिन दो वर्गों में इसके द्वारा उत्पन्न डेटा को अलग करने के लिए एक क्लासिफायरियर बनाना बहुत आसान है। बस अगरएक्स0एक्स<0

यहाँ छवि विवरण दर्ज करें

ऊपर दिए गए सटीक घनत्व के मिलान के बजाय हम नीचे के कच्चे मॉडल का प्रस्ताव करते हैं, जो कि सच्चे डीजीपी से काफी दूर है। हालांकि यह सही वर्गीकरण करता है। यह काज हानि का उपयोग करके पाया जाता है, जो उचित नहीं है।

यहाँ छवि विवरण दर्ज करें

दूसरी तरफ अगर आप लॉग-लॉस (जो कि उचित है) के साथ सही DGP को खोजने का निर्णय लेते हैं तो आप कुछ फंक्शन्स को फील करना शुरू कर देते हैं, क्योंकि आपको नहीं पता कि आपको फंक्शनल फंक्शनल फॉर्म की क्या जरूरत है। लेकिन जैसा कि आप इसे मैच करने के लिए कठिन और कठिन प्रयास करते हैं, आप चीजों को गलत तरीके से बदलना शुरू करते हैं।

यहाँ छवि विवरण दर्ज करें

ध्यान दें कि दोनों मामलों में हमने एक ही कार्यात्मक रूप का उपयोग किया है। अनुचित नुकसान के मामले में, यह एक कदम समारोह में बदल गया, जिसने बदले में सही वर्गीकरण किया। उचित मामले में यह घनत्व के प्रत्येक क्षेत्र को संतुष्ट करने की कोशिश कर रहा है।

मूल रूप से सटीक पूर्वानुमान लगाने के लिए हमें हमेशा सही मॉडल प्राप्त करने की आवश्यकता नहीं होती है। या कभी-कभी हमें वास्तव में घनत्व के पूरे डोमेन पर अच्छा करने की आवश्यकता नहीं होती है, लेकिन इसके कुछ हिस्सों पर ही बहुत अच्छा होना चाहिए।


13
यह एक आकर्षक उदाहरण है, विचार के लिए वास्तव में कुछ भोजन।
मैथ्यू पारा

7

सटीकता (यानी, प्रतिशत सही ढंग से वर्गीकृत) एक अनुचित स्कोरिंग नियम है, इसलिए कुछ अर्थों में लोग इसे हर समय करते हैं।

अधिक सामान्यतः, कोई भी स्कोरिंग नियम जो पूर्व-परिभाषित श्रेणी में भविष्यवाणियों को मजबूर करता है, अनुचित होने वाला है। वर्गीकरण इसका एक चरम मामला है (केवल स्वीकार्य पूर्वानुमान 0% और 100% हैं), लेकिन मौसम का पूर्वानुमान शायद थोड़ा अनुचित भी है - मेरे स्थानीय स्टेशन 10 या 20% अंतराल में बारिश की संभावना की रिपोर्ट करते हैं, हालांकि मैं डी शर्त शर्त है कि अंतर्निहित मॉडल बहुत अधिक सटीक है।

उचित स्कोरिंग नियम यह भी मानते हैं कि फोरकास्टर जोखिम तटस्थ है। यह वास्तविक मानव पूर्वानुमानकर्ताओं के लिए अक्सर ऐसा नहीं होता है, जो आमतौर पर जोखिम-प्रतिकूल होते हैं, और कुछ अनुप्रयोगों को उस पूर्वाग्रह को पुन: उत्पन्न करने वाले स्कोरिंग नियम से लाभ हो सकता है। उदाहरण के लिए, आप छाता ले जाने के बाद से P (बारिश) को थोड़ा अतिरिक्त वजन दे सकते हैं, लेकिन जरूरत नहीं है कि यह एक मंदी में पकड़े जाने से कहीं बेहतर है।


3
मुझे नहीं लगता कि मैं आपके तीसरे पैराग्राफ को समझता हूं। मैं इसी तरह का उत्तर उन पंक्तियों के साथ लिख रहा था, जिन्हें हम भविष्यवाणियों के उच्च मात्रा प्राप्त करने पर अधिक ध्यान केंद्रित करना चाहते हैं। हम सभी के बाद भी सही भविष्य के वितरण का पूर्वानुमान लगाने के लिए सबसे अधिक प्रेरित होंगे। क्या आप विस्तृत कर सकते हैं?
एस। कोलासा - मोनिका

1
यदि फोरकास्टर अपनी अपेक्षित उपयोगिता (मूल्य के बजाय) को अधिकतम करता है, तो उचित स्कोरिंग नियम वास्तव में उचित नहीं हो सकते हैं (उदाहरण के लिए, यदि उपयोगिता स्कोर का रैखिक कार्य नहीं है)। हालाँकि, यदि आप जानते हैं या उपयोगिता फ़ंक्शन का अनुमान लगा सकते हैं, तो मुझे लगता है कि आप इसका उलटा लागू करने के बजाय विशेष रूप से अनुरूप उचित स्कोरिंग नियम के साथ आ सकते हैं।
मैट क्राउज़

3
लेकिन स्कोरिंग नियम की उचितता या नहीं उपयोगिता से संबंधित है, केवल अनुमानित और वास्तविक भविष्य के वितरण के लिए, इसलिए मैं अभी भी आपकी टिप्पणी के पहले वाक्य को नहीं समझ रहा हूं, और न ही हम एक अनुचित स्कोरिंग नियम का उपयोग क्यों करना चाहते हैं । हालाँकि, आपने मुझे ER द्वारा एक पेपर याद दिलाया है , JRSS-B में छपने के लिए , जिसे मैंने अपना संक्षिप्त उत्तर लिखने में स्किम किया था, लेकिन जहाँ मुझे वर्तमान प्रश्न के लिए कुछ भी उपयोगी नहीं लगा - करीब से पढ़ना अधिक मददगार हो सकता है।
एस। कोलासा - मोनिका

@StephanKolassa, विंकलर एंड जोस "स्कोरिंग रूल्स" के अंतिम पृष्ठ का पहला कॉलम (2010) यह बताते हैं?
रिचर्ड हार्डी

टिप्पणियाँ विस्तारित चर्चा के लिए नहीं हैं; इस वार्तालाप को बातचीत में स्थानांतरित कर दिया गया है ।
गूँग - मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.