समझाने के लिए क्यों सबसे अच्छा तरीका क्या है है न एक अच्छा उपाय, कहते हैं एफ 1 की तुलना में,?
समझाने के लिए क्यों सबसे अच्छा तरीका क्या है है न एक अच्छा उपाय, कहते हैं एफ 1 की तुलना में,?
जवाबों:
ऐसा नहीं है कि एक खराब माप है, यह सिर्फ अपने दम पर है, जिसके परिणामस्वरूप संख्या कुछ भी सार्थक का प्रतिनिधित्व नहीं करती है। हालांकि आप सही रास्ते पर हैं ... हम जो देख रहे हैं वह एक संयुक्त प्रदर्शन है, दो प्रदर्शन उपायों का औसत क्योंकि हम उनके बारे में चुनना नहीं चाहते हैं।
याद रखें कि सटीक और याद के रूप में परिभाषित किया गया है:
रिकॉल=सच्चा पॉजिटिव
चूँकि उन दोनों के अलग-अलग भाजक हैं, उन्हें एक साथ जोड़ने से परिणाम कुछ इस तरह से आता है: भविष्यवाणी की ... जो विशेष रूप से उपयोगी नहीं है।
उन्हें एक साथ जोड़ने पर वापस जाते हैं, और एक ट्वीक बनाते हैं: उन्हें 1 से गुणा करें ताकि वे सही पैमाने पर बने रहें,[0-1]। यह उनमें से परिचित औसत ले रहा है।
तो, हमारे पास दो मात्राएँ हैं, जिनमें एक ही अंश है, लेकिन विभिन्न भाजक हैं और हम उनमें से औसत लेना चाहेंगे। हम क्या करें? खैर हम उन्हें पलट सकते हैं, उनका उलटा कर सकते हैं। तब आप उन्हें एक साथ जोड़ सकते थे। तो वे "राइट साइड अप" हैं, आप फिर से उलटा लेते हैं।
Inverting की यह प्रक्रिया, और फिर inverting फिर से एक "नियमित" माध्य को एक हार्मोनिक माध्य में बदल देता है। यह सिर्फ इतना होता है कि सटीक और स्मरण का हार्मोनिक मतलब F1-आँकड़ा है। हार्मोनिक माध्य का उपयोग आमतौर पर दरों के साथ काम करते समय मानक अंकगणितीय माध्य के बजाय किया जाता है, जैसा कि हम यहां कर रहे हैं।
अंत में, F1-आँकड़ा सिर्फ सटीक और याद रखने का औसत है, और आप इसका उपयोग करते हैं क्योंकि आप मॉडल के प्रदर्शन का मूल्यांकन करने के लिए एक या दूसरे का चयन नहीं करना चाहते हैं।
संक्षिप्त उत्तर है: आप दो प्रतिशत के योग की उम्मीद नहीं करेंगे, जिसमें दो अलग-अलग भाजक हों, जिनका कोई विशेष अर्थ हो। इसलिए, एफ 1, एफ 2 या एफ 0.5 जैसे औसत माप लेने के लिए दृष्टिकोण। उत्तरार्द्ध कम से कम प्रतिशत की संपत्ति को बनाए रखता है। हालांकि उनके अर्थ के बारे में क्या?
अलग-अलग उपायों के रूप में प्रेसिजन और रिकॉल की सुंदरता उनकी व्याख्या की आसानी है और तथ्य यह है कि उन्हें मॉडल के व्यावसायिक उद्देश्यों के साथ आसानी से सामना किया जा सकता है। मॉडल द्वारा वर्गीकृत मामलों में से प्रतिशत का सटीक मापन करता true positives
है positive
। याद रखें कि true positives
सभी true
मामलों में से मॉडल द्वारा पाया गया प्रतिशत मापता है । कई समस्याओं के लिए, आपको या तो प्रेसिजन या रिकॉल को अनुकूलित करने के बीच चयन करना होगा।
कोई भी औसत उपाय उपरोक्त व्याख्या को खो देता है और नीचे उबल जाता है जिसमें से माप आपको सबसे ज्यादा पसंद है। F1 का मतलब है कि या तो आप यह नहीं जानते कि आप रिकॉल या प्रिसिजन को पसंद करते हैं या आप उनमें से प्रत्येक को बराबर वजन देते हैं। यदि आप रिकॉल को परिशुद्धता से अधिक महत्वपूर्ण मानते हैं, तो आपको औसत गणना (जैसे F2), और इसके विपरीत (जैसे F0.5) में इसका अधिक वजन आवंटित करना चाहिए।
दोनों को जोड़ना एक बुरा उपाय है। यदि आप हर चीज को सकारात्मक रूप से चिह्नित करते हैं, तो आपको कम से कम 1 का स्कोर मिलेगा, क्योंकि यह परिभाषा द्वारा 100% याद है। और आपको उसके शीर्ष पर थोड़ा सटीक बम्प मिलेगा। एफ 1 में प्रयुक्त ज्यामितीय माध्य कमजोर कड़ी पर जोर देता है, क्योंकि यह गुणक है; आपको कम से कम दोनों परिशुद्धता के साथ ठीक करना होगा और एक सभ्य एफ 1 स्कोर प्राप्त करना होगा।
एफ 1 स्कोर विशेष रूप से गंभीर असममित संभावनाओं के मामले में मूल्यवान है।
निम्नलिखित उदाहरण पर विचार करें: हम एक दुर्लभ लेकिन खतरनाक बीमारी के लिए परीक्षण करते हैं। मान लेते हैं कि 1.000.000 लोगों के शहर में केवल 100 संक्रमित हैं।
टेस्ट ए इन सभी 100 सकारात्मक का पता लगाता है। हालांकि, इसमें 50% झूठी सकारात्मक दर भी है: यह गलत तरीके से एक और 500.000 लोगों को बीमार दिखाता है।
इस बीच, परीक्षण बी संक्रमित का 10% याद करता है, लेकिन केवल 1.000 झूठी सकारात्मक (0.1% झूठी सकारात्मक दर) देता है
चलो स्कोर की गणना करते हैं। परीक्षण ए के लिए, परिशुद्धता प्रभावी रूप से 0 होगी; रीकॉल बिल्कुल ठीक होगा। टेस्ट बी के लिए, परिशुद्धता अभी भी छोटी होगी, लगभग 0.01। रिकॉल 0.9 के बराबर होगा।
अगर हम सटीक रूप से योग और अंकगणित का मतलब निकालते हैं या याद करते हैं, तो यह टेस्ट ए के लिए 1 (0.5) और टेस्ट बी के लिए 0.91 (0.455) देगा, इसलिए टेस्ट ए थोड़ा बेहतर लगेगा।
हालांकि, अगर हम व्यावहारिक दृष्टिकोण से देखें, तो परीक्षण A बेकार है: यदि किसी व्यक्ति का परीक्षण सकारात्मक है, तो उसका वास्तव में बीमार होने का मौका 50.000 में 1 है! टेस्ट बी का अधिक व्यावहारिक महत्व है: आप 1.100 लोगों को अस्पताल ले जा सकते हैं और उन्हें करीब से देख सकते हैं। यह एफ 1 स्कोर द्वारा सटीक रूप से परिलक्षित होता है: ए के लिए परीक्षण ए यह परीक्षण बी के लिए 0.0002 के करीब होगा: (0.01 * 0.9) / (0.01 + 0.9) = 0.0098, जो अभी भी खराब है, लेकिन लगभग 50 गुना बेहतर है।
स्कोर वैल्यू और व्यावहारिक महत्व के बीच का यह मैच एफ 1 स्कोर को मूल्यवान बनाता है।
सामान्य तौर पर, ज्यामितीय माध्य को अधिकतम करने से मूल्यों के समान होने पर जोर दिया जाता है। उदाहरण के लिए, दो मॉडल लें: पहले में (परिशुद्धता, रिकॉल) = (0.8, 0.8) और दूसरी में (सटीक, रिकॉल) = (0.6, 1.0) है। बीजगणितीय माध्य का उपयोग करते हुए, दोनों मॉडल समतुल्य होंगे। ज्यामितीय माध्य का उपयोग करते हुए, पहला मॉडल बेहतर है क्योंकि यह याद के लिए सटीक व्यापार नहीं करता है।