जब हम प्रेसिजन और रिकॉल दोनों पर विचार करते हुए एफ-माप की गणना करते हैं, तो हम एक साधारण अंकगणित माध्य के बजाय दो उपायों के हार्मोनिक माध्य लेते हैं।
हार्मोनिक माध्य लेने के पीछे सहज कारण क्या है और एक साधारण औसत नहीं है?
जब हम प्रेसिजन और रिकॉल दोनों पर विचार करते हुए एफ-माप की गणना करते हैं, तो हम एक साधारण अंकगणित माध्य के बजाय दो उपायों के हार्मोनिक माध्य लेते हैं।
हार्मोनिक माध्य लेने के पीछे सहज कारण क्या है और एक साधारण औसत नहीं है?
जवाबों:
यहां हमारे पास पहले से ही कुछ विस्तृत उत्तर हैं, लेकिन मुझे लगा कि इसके बारे में कुछ और जानकारी कुछ लोगों के लिए मददगार होगी, जो गहराई तक पहुंचना चाहते हैं (विशेष रूप से एफ उपाय)।
माप के सिद्धांत के अनुसार समग्र माप को निम्नलिखित 6 परिभाषाओं को पूरा करना चाहिए:
हम तब प्राप्त कर सकते हैं और प्रभावशीलता का कार्य प्राप्त कर सकते हैं :
और आम तौर पर हम प्रभावशीलता का उपयोग नहीं करते हैं लेकिन बहुत अधिक एफ एफ स्कोर क्योंकि :
अब हमारे पास एफ उपाय का सामान्य सूत्र है:
जहां हम बीटा को सेट करके रिकॉल या परिशुद्धता पर अधिक प्रभाव डाल सकते हैं, क्योंकि बीटा को निम्नानुसार परिभाषित किया गया है:
अगर हम सटीक से अधिक महत्वपूर्ण वजन को याद करते हैं (सभी प्रासंगिक चुने गए हैं) तो हम बीटा को 2 के रूप में सेट कर सकते हैं और हमें F2 उपाय मिलता है। और अगर हम रिवर्स और वेट प्रिसेंस को रिकॉल से अधिक करते हैं (उदाहरण के लिए चयनित तत्व यथासंभव प्रासंगिक हैं, उदाहरण के लिए कुछ व्याकरण त्रुटि सुधार परिदृश्य जैसे CoNLL में ) तो हम बीटा को केवल 0.5 के रूप में सेट करते हैं और F0.5 माप प्राप्त करते हैं। और जाहिर है कि हम बीटा को 1 के रूप में सेट कर सकते हैं ताकि ज्यादातर इस्तेमाल किए जाने वाले एफ 1 माप (सटीक और याद के हार्मोनिक मतलब) प्राप्त कर सकें।
मुझे लगता है कि कुछ हद तक मैं पहले ही जवाब दे चुका हूं कि हम अंकगणित का उपयोग क्यों नहीं करते हैं।
संदर्भ:
उदाहरण के लिए समझाने के लिए, 30mph और 40mph का औसत क्या है? यदि आप प्रत्येक गति पर 1 घंटे के लिए ड्राइव करते हैं, तो 2 घंटे से अधिक की औसत गति वास्तव में अंकगणितीय औसत, 35mph है।
हालाँकि यदि आप प्रत्येक गति पर समान दूरी के लिए ड्राइव करते हैं - 10 मील - तो 20 मील से अधिक की औसत गति 30 और 40 का हार्मोनिक मतलब है, लगभग 34.3mph।
कारण यह है कि औसत के लिए मान्य होने के लिए, आपको वास्तव में समान स्केल की गई इकाइयों में मूल्यों की आवश्यकता होती है। प्रति घंटे मील की तुलना में घंटों की समान संख्या की आवश्यकता होती है; उसी मील की तुलना में आपको मील प्रति घंटे की औसत मात्रा की आवश्यकता होती है, जो कि हार्मोनिक का मतलब ठीक है।
परिशुद्धता और याद करते हैं कि दोनों अंश में वास्तविक सकारात्मकता है, और विभिन्न भाजक हैं। उन्हें औसत करने के लिए यह वास्तव में केवल उनके पारस्परिक औसत करने के लिए समझ में आता है, इस प्रकार हार्मोनिक मतलब है।
क्योंकि यह चरम मूल्यों को अधिक सजा देता है।
एक तुच्छ विधि पर विचार करें (जैसे हमेशा लौटने वाला वर्ग ए)। वर्ग बी के अनंत डेटा तत्व हैं, और कक्षा ए का एक एकल तत्व हैं:
Precision: 0.0
Recall: 1.0
अंकगणित माध्य लेते समय, यह 50% सही होगा। सबसे खराब संभव परिणाम होने के बावजूद ! हार्मोनिक मतलब के साथ, एफ 1-माप 0 है।
Arithmetic mean: 0.5
Harmonic mean: 0.0
दूसरे शब्दों में, उच्च F1 रखने के लिए, आपको उच्च परिशुद्धता और रिकॉल दोनों की आवश्यकता होती है ।
उपरोक्त उत्तर अच्छी तरह से समझाया गया है। यह अंकगणित माध्य की प्रकृति और भूखंडों के साथ हार्मोनिक माध्य को समझने के लिए एक त्वरित संदर्भ के लिए है। जैसा कि आप भूखंड से देख सकते हैं, एक्स अक्ष और वाई अक्ष को सटीक और याद करते हैं, और एफ अक्ष के रूप में जेड अक्ष पर विचार करें। तो, हार्मोनिक माध्य के भूखंड से, सटीक और याद दोनों को समान रूप से F1 अंक के लिए योगदान करना चाहिए जो अंकगणित माध्य के विपरीत उठता है।
यह अंकगणित माध्य के लिए है।
यह हार्मोनिक माध्य के लिए है।
हार्मोनिक माध्य का मतलब है अंकगणित माध्य के बराबर जो कि अंकगणितीय माध्य से औसतन होना चाहिए। अधिक सटीक रूप से, हार्मोनिक मतलब के साथ, आप अपने सभी नंबरों को "औसत दर्जे का" रूप में बदल देते हैं (पारस्परिक रूप से), आप उनके अंकगणित माध्य लेते हैं और फिर परिणाम को मूल प्रतिनिधित्व में बदल देते हैं (पारस्परिक फिर से लेकर)।
परिशुद्धता और रिकॉल "स्वाभाविक रूप से" पारस्परिक हैं क्योंकि उनका अंश समान है और उनके भाजक अलग हैं। अंकगणित औसत से औसत से अधिक समझदार होते हैं जब उनके समान भाजक होते हैं।
अधिक अंतर्ज्ञान के लिए, मान लीजिए कि हम वास्तविक सकारात्मक वस्तुओं की संख्या को स्थिर रखते हैं। फिर सटीक और रिकॉल के हार्मोनिक माध्य लेने से, आप स्पष्ट रूप से गलत सकारात्मक और गलत नकारात्मक के अंकगणित माध्य लेते हैं। मूल रूप से इसका मतलब है कि झूठी सकारात्मक और गलत नकारात्मक आपके लिए समान रूप से महत्वपूर्ण हैं जब वास्तविक सकारात्मक समान रहते हैं। यदि एक एल्गोरिथ्म में N अधिक झूठे सकारात्मक आइटम हैं लेकिन N कम झूठे नकारात्मक (समान सत्य सकारात्मक होने पर), एफ-माप समान रहता है।
दूसरे शब्दों में, एफ-माप उपयुक्त है जब:
बिंदु 1 सच हो सकता है या नहीं भी हो सकता है, एफ-माप के भारित वेरिएंट हैं जिनका उपयोग किया जा सकता है यदि यह धारणा सच नहीं है। बिंदु 2 काफी स्वाभाविक है क्योंकि हम परिणामों को बड़े पैमाने पर करने की उम्मीद कर सकते हैं यदि हम अधिक से अधिक अंक वर्गीकृत करते हैं। रिश्तेदार संख्या समान रहना चाहिए।
प्वाइंट 3 काफी दिलचस्प है। कई अनुप्रयोगों में नकारात्मक प्राकृतिक डिफ़ॉल्ट होते हैं और यह भी निर्दिष्ट करना कठिन या मनमाना हो सकता है कि वास्तव में एक सच्चे नकारात्मक के रूप में क्या मायने रखता है। उदाहरण के लिए फायर अलार्म में हर सेकंड, हर नैनोसेकंड, हर बार प्लैंक टाइम बीतने पर भी एक सच्ची नकारात्मक घटना होती है। यहां तक कि चट्टान के एक टुकड़े में हर समय इन सच्ची नकारात्मक आग का पता लगाने वाली घटनाएं होती हैं।
या चेहरे का पता लगाने के मामले में, अधिकांश समय आप छवि के संभावित क्षेत्रों के अरबों " सही ढंग से वापस नहीं करते हैं " लेकिन यह दिलचस्प नहीं है। दिलचस्प मामलों रहे हैं जब आप करते हैं एक प्रस्तावित पता लगाने वापसी या जब आप चाहिए इसे वापस।
इसके विपरीत वर्गीकरण सटीकता सही सकारात्मक और वास्तविक नकारात्मक के बारे में समान रूप से परवाह करता है और अधिक उपयुक्त है यदि नमूनों की कुल संख्या (वर्गीकरण घटनाओं) अच्छी तरह से परिभाषित और बल्कि छोटी है।