एफ 1 / पासा-स्कोर बनाम आईओयू


24

मैं एफ 1 स्कोर, डाइस स्कोर और आईओयू (संघ से अधिक अंतर) के बीच के मतभेदों को लेकर उलझन में था। अब तक मुझे पता चला कि एफ 1 और डाइस का मतलब एक ही चीज (दाएं?) और आईओयू का अन्य दोनों के समान है।

  • एफ 1 / पासा:
    2टीपी2टीपी+एफपी+एफएन
  • IoU / जैकार्ड:
    टीपीटीपी+एफपी+एफएन

क्या कोई भी व्यावहारिक अंतर या अन्य चीजें ध्यान देने योग्य हैं सिवाय इसके कि एफ 1 सच-सकारात्मक को अधिक वजन करता है? क्या ऐसी स्थिति है जहां मैं एक का उपयोग करूंगा लेकिन दूसरे का नहीं?


जाहिरा तौर पर जैकार्ड गुणांक भी IoU के समान है
pietz

मुझे विशेष रूप से दिलचस्पी होगी अगर इनमें से कुछ (अब 4) माप केवल बाइनरी डेटा के लिए हैं।
पीटज़

जवाबों:


38

आप सही रास्ते पर हैं।

तो कुछ चीजें सही बल्ले से। दो मैट्रिक्स की परिभाषा से, हमारे पास यह है कि IoU और F स्कोर हमेशा एक-दूसरे के 2: कारक के भीतर होते हैं

एफ/2मैंयूएफ
है और यह भी कि वे एक और शून्य की शर्तों के तहत के चरम पर मिलते हैं कि आप (सही मैच और पूरी तरह से असहमति) की उम्मीद करेंगे।

मैंयू/एफ=1/2+मैंयू/2
इतना है कि अनुपात 1/2 के रूप में दोनों मैट्रिक्स दृष्टिकोण शून्य के करीब पहुंचता है।

लेकिन वहाँ एक मजबूत बयान है कि वर्गीकरण के विशिष्ट अनुप्रयोग के लिए बनाया जा सकता है एक ला मशीन सीखने। किसी भी निश्चित "जमीनी सच्चाई" के लिए, दो मैट्रिक्स हमेशा सकारात्मक रूप से सहसंबद्ध होते हैं। कहने का तात्पर्य यह है कि यदि क्लासिफायर A एक मीट्रिक के तहत B से बेहतर है, तो यह अन्य मीट्रिक के अंतर्गत Classifier B से भी बेहतर है।

फिर यह आकर्षक है कि यह निष्कर्ष निकालना कि दो मैट्रिक्स कार्यात्मक रूप से समतुल्य हैं, इसलिए उनके बीच का चुनाव मनमाना है, लेकिन इतना तेज नहीं! समस्या तब आती है जब एक सेट के औसत से अधिक अंक लेते हैं । तब अंतर कैसे उभर कर आता है भी बदतर वर्गीकारक बी किसी भी मामले के लिए एक से अधिक है।

सामान्य तौर पर, आईओयू मीट्रिक खराब वर्गीकरण के एकल उदाहरणों को दंडित करने के लिए एफ स्कोर की तुलना में अधिक मात्रा में दंडित करता है, भले ही वे दोनों सहमत हों कि यह एक उदाहरण खराब है। इसी तरह से L2, L1 से अधिक की सबसे बड़ी गलतियों को कैसे दंडित कर सकता है, Io स्कोर के सापेक्ष त्रुटियों पर "स्क्वेरिंग" प्रभाव पड़ता है। तो एफ स्कोर औसत प्रदर्शन के करीब कुछ मापने के लिए जाता है, जबकि आईओयू स्कोर सबसे खराब स्थिति प्रदर्शन के करीब कुछ मापता है।

उदाहरण के लिए मान लीजिए कि अधिकांश इंफ़ेक्शंस बी की तुलना में क्लासिफ़ायर ए के साथ मामूली बेहतर हैं, लेकिन उनमें से कुछ क्लासिफायरियर ए का उपयोग करके काफी खराब हैं। फिर भी ऐसा हो सकता है कि एफ मेट्रिक क्लासिफायर ए का समर्थन करता है जबकि आयो मेट्रिक एहसान। क्लासिफायर बी।

यह सुनिश्चित करने के लिए कि ये दोनों मैट्रिक्स अलग-अलग हैं, एक जैसे हैं। लेकिन इन दोनों को कई अंकों से अधिक इन अंकों के औसत के दृष्टिकोण से एक और नुकसान का सामना करना पड़ता है: वे दोनों थोड़ा-से-वास्तविक वास्तविक सकारात्मक सेट के साथ सेट के महत्व को ओवरस्टेट करते हैं। छवि विभाजन के सामान्य उदाहरण में, यदि किसी छवि में केवल कुछ पता लगाने योग्य वर्ग का एक पिक्सेल होता है, और क्लासिफायर उस पिक्सेल और एक अन्य पिक्सेल का पता लगाता है, तो उसका F स्कोर कम 2/3 और IoU 1 / से भी अधिक खराब होता है 2। इन जैसी तुच्छ गलतियाँ छवियों के एक सेट पर लिए गए औसत स्कोर पर गंभीरता से हावी हो सकती हैं। संक्षेप में, यह प्रत्येक पिक्सेल त्रुटि को समान रूप से इलाज करने के बजाय चयनित / प्रासंगिक सेट के आकार के विपरीत आनुपातिक रूप से वजन करता है।

एक बहुत ही सरल मीट्रिक है जो इस समस्या से बचा जाता है। बस कुल त्रुटि का उपयोग करें: FN + FP (उदाहरण के लिए छवि के पिक्सेल का 5% मिसकैरेज किया गया था)। इस मामले में जहां एक दूसरे की तुलना में अधिक महत्वपूर्ण है, एक भारित औसत का उपयोग किया जा सकता है:सी0एफपी + सी1एफ एन।


विलेम, मैं एक बेहतर जवाब के लिए नहीं कह सकता था। समय निकालने के लिए बहुत-बहुत धन्यवाद।
pietz

5
मैंने आपके कुल त्रुटि दृष्टिकोण की कोशिश की और बस यह जोड़ना चाहता था कि यह सकारात्मक और नकारात्मक के बीच निरंतर असंतुलन के साथ अच्छी तरह से काम नहीं करता है। छवियों के संपूर्ण डेटासेट की कल्पना करें जहां केवल एक पिक्सेल जमीनी सच्चाई विभाजन बनाता है। तंत्रिका नेटवर्क काफी जल्दी सीख सकते हैं कि कुल त्रुटि का उपयोग करके एक खाली भविष्यवाणी हमेशा 99.9% सटीक होती है। IoU या DSC के साथ जाकर हम नेटवर्क को एक दबाव बनाने में दबाव डालते हैं कि आपके द्वारा बताए गए कारणों के कारण। तो, अंत में यह बहुत समस्या निर्भर है।
पिएट्ज़

1
क्या कोई मुझे निम्नलिखित दो कथनों को समेटने में मदद कर सकता है ?: 1: "That is to say that if classifier A is better than B under one metric, it is also better than classifier B under the other metric."और 2:"It may be the case then that the F metric favors classifier A while the IoU metric favors classifier B."
19

1
पूर्व एक एकल अनुमान के स्कोर को संदर्भित करता है, और उत्तरार्द्ध inferences के सेट पर एक औसत स्कोर को संदर्भित करता है (उदाहरण के लिए छवियों का एक सेट)।
विलेम
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.