सटीक और रिकॉल का योग योग्य उपाय क्यों नहीं है?


12

समझाने के लिए क्यों सबसे अच्छा तरीका क्या है है एक अच्छा उपाय, कहते हैं एफ 1 की तुलना में,?Precision+याद


इसका क्या अर्थ होगा? आप इसकी व्याख्या कैसे करेंगे? यह वास्तव में आपको क्या बताएगा?
मैथ्यू डॉरी

1
आपको "प्रिसिजन + रिकॉल" की जगह "प्रिसिजन + रिकॉल" की जगह टाइटल बदलना चाहिए और यह स्पष्ट करना चाहिए कि आप क्या चाहते हैं।
g3o2

@ g3o2 क्या हम यहाँ व्याकरण की बात कर रहे हैं, या मैं कुछ अधिक याद कर रहा हूँ?
मैट

वास्तव में नहीं, सिर्फ यह देखते हुए कि यह विशेष रूप से केवल शीर्षक पढ़ते समय, प्रेसिजन और रिकॉल भी पढ़ा जा सकता है।
g3o2

जवाबों:


18

ऐसा नहीं है कि एक खराब माप है, यह सिर्फ अपने दम पर है, जिसके परिणामस्वरूप संख्या कुछ भी सार्थक का प्रतिनिधित्व नहीं करती है। हालांकि आप सही रास्ते पर हैं ... हम जो देख रहे हैं वह एक संयुक्त प्रदर्शन है, दो प्रदर्शन उपायों का औसत क्योंकि हम उनके बारे में चुनना नहीं चाहते हैं।शुद्धता+याद

याद रखें कि सटीक और याद के रूप में परिभाषित किया गया है:

रिकॉल=सच्चा पॉजिटिव

शुद्धता=सच्चा सकारात्मकपॉजिटिव बताया
याद=सच्चा सकारात्मकवास्तविक सकारात्मक

चूँकि उन दोनों के अलग-अलग भाजक हैं, उन्हें एक साथ जोड़ने से परिणाम कुछ इस तरह से आता है: भविष्यवाणी की ... जो विशेष रूप से उपयोगी नहीं है।

सच्चा सकारात्मक(पॉजिटिव बताया+वास्तविक सकारात्मक)पॉजिटिव बताया×वास्तविक सकारात्मक

उन्हें एक साथ जोड़ने पर वापस जाते हैं, और एक ट्वीक बनाते हैं: उन्हें 1 से गुणा करें ताकि वे सही पैमाने पर बने रहें,[0-1]। यह उनमें से परिचित औसत ले रहा है।12[0-1]

12×(सच्चा सकारात्मकपॉजिटिव बताया+सच्चा सकारात्मकवास्तविक सकारात्मक)

तो, हमारे पास दो मात्राएँ हैं, जिनमें एक ही अंश है, लेकिन विभिन्न भाजक हैं और हम उनमें से औसत लेना चाहेंगे। हम क्या करें? खैर हम उन्हें पलट सकते हैं, उनका उलटा कर सकते हैं। तब आप उन्हें एक साथ जोड़ सकते थे। तो वे "राइट साइड अप" हैं, आप फिर से उलटा लेते हैं।

Inverting की यह प्रक्रिया, और फिर inverting फिर से एक "नियमित" माध्य को एक हार्मोनिक माध्य में बदल देता है। यह सिर्फ इतना होता है कि सटीक और स्मरण का हार्मोनिक मतलब F1-आँकड़ा है। हार्मोनिक माध्य का उपयोग आमतौर पर दरों के साथ काम करते समय मानक अंकगणितीय माध्य के बजाय किया जाता है, जैसा कि हम यहां कर रहे हैं।

अंत में, F1-आँकड़ा सिर्फ सटीक और याद रखने का औसत है, और आप इसका उपयोग करते हैं क्योंकि आप मॉडल के प्रदर्शन का मूल्यांकन करने के लिए एक या दूसरे का चयन नहीं करना चाहते हैं।


2
बीजीय माध्य से हार्मोनिक माध्य विकसित करने के लिए वास्तव में बहुत धन्यवाद! लेकिन शायद जो मेरे साथ बहुत मजबूती से नहीं बैठता है, वह हिस्सा है जहां आप कहते हैं "जो विशेष रूप से उपयोगी नहीं है"। उस नस में मैंने अब अन्य दो उत्तरों पर नीचे टिप्पणी की है। बस अगर आप इसे एक कदम आगे बढ़ाते हैं .. तो कल्पना कीजिए कि मैं एक ही डेटासेट पर परीक्षण किए गए क्लासीफायर के एक समूह के बीच सर्वश्रेष्ठ क्लासिफायर चुनना चाहता हूं।
मैट

@matt, किसी भी संयुक्त उपाय का उपयोग करके आपके मॉडल की पसंद को एक निश्चित बिंदु पर लाएगा, लेकिन परे नहीं। समान एफ 1 मूल्य वाले दो मॉडल पूरी तरह से रिकॉल और सटीक मान दिखा सकते हैं। इसलिए, एफ 1 के समान होने के लिए, आपको रिकॉल और प्रेसिजन के बीच चयन करना होगा।
g3o2

4

संक्षिप्त उत्तर है: आप दो प्रतिशत के योग की उम्मीद नहीं करेंगे, जिसमें दो अलग-अलग भाजक हों, जिनका कोई विशेष अर्थ हो। इसलिए, एफ 1, एफ 2 या एफ 0.5 जैसे औसत माप लेने के लिए दृष्टिकोण। उत्तरार्द्ध कम से कम प्रतिशत की संपत्ति को बनाए रखता है। हालांकि उनके अर्थ के बारे में क्या?

अलग-अलग उपायों के रूप में प्रेसिजन और रिकॉल की सुंदरता उनकी व्याख्या की आसानी है और तथ्य यह है कि उन्हें मॉडल के व्यावसायिक उद्देश्यों के साथ आसानी से सामना किया जा सकता है। मॉडल द्वारा वर्गीकृत मामलों में से प्रतिशत का सटीक मापन करता true positivesहै positiveयाद रखें कि true positivesसभी trueमामलों में से मॉडल द्वारा पाया गया प्रतिशत मापता है । कई समस्याओं के लिए, आपको या तो प्रेसिजन या रिकॉल को अनुकूलित करने के बीच चयन करना होगा।

कोई भी औसत उपाय उपरोक्त व्याख्या को खो देता है और नीचे उबल जाता है जिसमें से माप आपको सबसे ज्यादा पसंद है। F1 का मतलब है कि या तो आप यह नहीं जानते कि आप रिकॉल या प्रिसिजन को पसंद करते हैं या आप उनमें से प्रत्येक को बराबर वजन देते हैं। यदि आप रिकॉल को परिशुद्धता से अधिक महत्वपूर्ण मानते हैं, तो आपको औसत गणना (जैसे F2), और इसके विपरीत (जैसे F0.5) में इसका अधिक वजन आवंटित करना चाहिए।


3

दोनों को जोड़ना एक बुरा उपाय है। यदि आप हर चीज को सकारात्मक रूप से चिह्नित करते हैं, तो आपको कम से कम 1 का स्कोर मिलेगा, क्योंकि यह परिभाषा द्वारा 100% याद है। और आपको उसके शीर्ष पर थोड़ा सटीक बम्प मिलेगा। एफ 1 में प्रयुक्त ज्यामितीय माध्य कमजोर कड़ी पर जोर देता है, क्योंकि यह गुणक है; आपको कम से कम दोनों परिशुद्धता के साथ ठीक करना होगा और एक सभ्य एफ 1 स्कोर प्राप्त करना होगा।


वास्तव में, यह कमजोर कड़ी का यह सटीक जोर है, जिसे मैंने सटीक पाया है जब प्रेसिजन और रिकॉल दोनों नुकीले के बजाय समझदार हैं। जब वे दोनों नुकीले नहीं होते हैं, तो मुझे यकीन नहीं होता कि मैं उनके बीच समानता पर जोर देने वाले एक मीट्रिक का जोड़ा मूल्य देख रहा हूं, या उनके अंतर के आकार के अनुसार अलग-अलग दंड लगा रहा हूं। इस सटीक संपत्ति ने मेरे मूल प्रश्न को यहां प्रेरित किया है।
मैट

मेरे लिए अतिरिक्त काम की तरह लगता है। यदि आप सटीक रूप में केवल एक के रूप में याद करने के प्रतिशत बिंदु को महत्व देते हैं, तो मुझे लगता है कि आपका उपाय उपयोग करने वाला है। लेकिन मैं आपकी छवि नहीं बना सकता। स्मरण शायद हावी होने वाला है, भले ही आप श्रेणियों को कम कर दें। आप सटीकता के साथ सेब से सेब बनना याद रख सकते हैं, लेकिन यह फिर से अधिक काम करता है और व्याख्या को कम स्पष्ट करता है।
बेन ओगोरक

1
निश्चित नहीं है कि क्यों याद रखें कि हावी होना चाहिए (?) लेकिन सटीक होने के साथ सेब-से-सेब बनना याद रखना यहाँ एक दिलचस्प संबंधित चर्चा हो सकती है या कहीं और - सही दिशा में एक सूचक हो सकता है :) और अन्यथा धन्यवाद
मैट

3

एफ 1 स्कोर विशेष रूप से गंभीर असममित संभावनाओं के मामले में मूल्यवान है।

निम्नलिखित उदाहरण पर विचार करें: हम एक दुर्लभ लेकिन खतरनाक बीमारी के लिए परीक्षण करते हैं। मान लेते हैं कि 1.000.000 लोगों के शहर में केवल 100 संक्रमित हैं।

टेस्ट ए इन सभी 100 सकारात्मक का पता लगाता है। हालांकि, इसमें 50% झूठी सकारात्मक दर भी है: यह गलत तरीके से एक और 500.000 लोगों को बीमार दिखाता है।

इस बीच, परीक्षण बी संक्रमित का 10% याद करता है, लेकिन केवल 1.000 झूठी सकारात्मक (0.1% झूठी सकारात्मक दर) देता है

चलो स्कोर की गणना करते हैं। परीक्षण ए के लिए, परिशुद्धता प्रभावी रूप से 0 होगी; रीकॉल बिल्कुल ठीक होगा। टेस्ट बी के लिए, परिशुद्धता अभी भी छोटी होगी, लगभग 0.01। रिकॉल 0.9 के बराबर होगा।

अगर हम सटीक रूप से योग और अंकगणित का मतलब निकालते हैं या याद करते हैं, तो यह टेस्ट ए के लिए 1 (0.5) और टेस्ट बी के लिए 0.91 (0.455) देगा, इसलिए टेस्ट ए थोड़ा बेहतर लगेगा।

हालांकि, अगर हम व्यावहारिक दृष्टिकोण से देखें, तो परीक्षण A बेकार है: यदि किसी व्यक्ति का परीक्षण सकारात्मक है, तो उसका वास्तव में बीमार होने का मौका 50.000 में 1 है! टेस्ट बी का अधिक व्यावहारिक महत्व है: आप 1.100 लोगों को अस्पताल ले जा सकते हैं और उन्हें करीब से देख सकते हैं। यह एफ 1 स्कोर द्वारा सटीक रूप से परिलक्षित होता है: ए के लिए परीक्षण ए यह परीक्षण बी के लिए 0.0002 के करीब होगा: (0.01 * 0.9) / (0.01 + 0.9) = 0.0098, जो अभी भी खराब है, लेकिन लगभग 50 गुना बेहतर है।

स्कोर वैल्यू और व्यावहारिक महत्व के बीच का यह मैच एफ 1 स्कोर को मूल्यवान बनाता है।


धन्यवाद। हो सकता है कि मैंने अपने आप को इस मामले में पर्याप्त रूप से डुबोया नहीं है, लेकिन क्या यह व्याख्या वास्तविक जीवन के डोमेन में "सकारात्मक" संसाधनों को आवंटित करने के व्यावहारिक लाभ पर टिका नहीं है, जहां एक परिणाम (सकारात्मक) का पता लगाना लक्ष्य है? यह हमेशा ऐसा नहीं होता है, कि लक्ष्य एक परिणाम का पता लगा रहा है? कभी-कभी आप बस यह जानना चाहते हैं कि क्या यह एक सेब या एक जोड़ी है, और दोनों प्रकार की त्रुटि में एक ही व्यावहारिक वास्तविक दुनिया की लागत है।
मैट

इन सबसे ऊपर, मैं जो देखने में विफल रहता हूं वह यह है कि "बेहतर" होने की यह संपत्ति उन मामलों को कैसे मापती है जहां सटीक और याद रखने के बीच (पूर्ण) अंतर कम पैथोलॉजिकल है। शायद अंतर्ज्ञान स्वाभाविक रूप से वहां है, लेकिन मैं अभी तक वहां नहीं हूं ...
मैट

1

सामान्य तौर पर, ज्यामितीय माध्य को अधिकतम करने से मूल्यों के समान होने पर जोर दिया जाता है। उदाहरण के लिए, दो मॉडल लें: पहले में (परिशुद्धता, रिकॉल) = (0.8, 0.8) और दूसरी में (सटीक, रिकॉल) = (0.6, 1.0) है। बीजगणितीय माध्य का उपयोग करते हुए, दोनों मॉडल समतुल्य होंगे। ज्यामितीय माध्य का उपयोग करते हुए, पहला मॉडल बेहतर है क्योंकि यह याद के लिए सटीक व्यापार नहीं करता है।


1
बहुत बहुत धन्यवाद। हालांकि, व्यावहारिक रूप से, मैं उदाहरण के लिए (0.8, 0.8) और (0.7, 0.9) के बीच किसी भी सार्वभौमिक रूप से लागू वरीयता को देखने में विफल रहता हूं। हो सकता है कि आपने "रिकवरी के लिए सटीक व्यापार बंद" में कुछ गहराई से संकेत दिया था - जो मैं खुद (अभी तक) नहीं उठा रहा हूं। मेरे लिए बीजगणितीय रूप से औसतन दो प्रकार की त्रुटि है, बस उनमें से सबसे सरल औसत देता है, बिना किसी पूर्वाग्रह के समानता के। उदाहरण के लिए, मैं सटीक और स्मरण के सरल योग का उपयोग कर सकता हूं ताकि यह पता लगाया जा सके कि दो में से कौन सा क्लासिफायर मुझे कम त्रुटि देता है।
मैट

हम इसे चरम पर ले जा सकते हैं। मान लीजिए कि आपके पास एक प्रणाली है जिसमें एक (परिशुद्धता, रिकॉल) = (0.6, 0.6) है। इसका मतलब यह है कि जब यह "हाँ" कहता है तो इसका सही 60% समय होता है और यह 60% "हाँ" घटनाओं को पकड़ता है। अब इसकी तुलना उस सिस्टम से करते हैं जिसमें (0.3, 1) है। इसका एक बेहतर बीजीय मतलब है, लेकिन यह क्या कर रहा है? यह सब "हाँ" घटनाओं बढ़ रहा है, लेकिन यह भी एक कहावत है "हाँ" गलत तरीके से बहुत कुछ । क्या वह अच्छा है? कि बुरा है? यह इस बात पर निर्भर करता है कि आप सिस्टम क्यों बना रहे हैं। जब आप "हाँ" भविष्यवाणी देखते हैं तो आप क्या कार्रवाई करेंगे? "हाँ" घटना को याद करने का परिणाम क्या है?
जुस

1
इनमें से कोई भी उपाय उचित सटीकता स्कोरिंग नियम नहीं हैं
फ्रैंक हरेल

@ आसपास बहुत धन्यवाद, लेकिन गैर-रोग संबंधी मामलों के लिए - जहां दोनों 0 और 1 के पास नहीं हैं - मुझे शायद अंतिम उपाय में, दोनों के बीच समानता पर जोर देने के लाभ को देखने में मदद की ज़रूरत है!
मैट

@FrankHarrell "कमरे में हाथी" को इंगित करने के लिए धन्यवाद
मैट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.