क्यों एफ बीटा स्कोर बीटा को उसी तरह परिभाषित करता है?


10

यह F बीटा स्कोर है:

Fβ=(1+β2)precisionrecall(β2precision)+reसीएलएल

विकिपीडिया लेख में कहा गया है कि ।एफβ "measures the effectiveness of retrieval with respect to a user who attaches β times as much importance to recall as precision"

मुझे विचार नहीं आया। क्यों इस तरह परिभाषित ? क्या मैं को इस तरह परिभाषित कर सकता हूं :F ββएफβ

एफβ=(1+β)पीआरसीमैंरोंमैंnआरसीएलएल(βपीआरसीमैंरोंमैंn)+आरसीएलएल

और कैसे दिखाना है β times as much importance?


2
नीचे दिए गए एक नए उत्तर की जाँच करें जिसमें अंतर कैलकुलस शामिल है जो "क्यों बीटा वर्ग और बीटा नहीं " को संबोधित करता है ।
javadba

जवाबों:


19

दे पहले परिभाषा उपलब्ध कराने में वजन और हो दूसरे में वजन, दो परिभाषा बराबर है जब आप सेट कर रहे हैं , इसलिए इन दोनों परिभाषाओं में केवल सांकेतिक अंतर का प्रतिनिधित्व स्कोर की परिभाषा । मैंने इसे पहले तरीके (जैसे विकिपीडिया पृष्ठ पर ) और दूसरा (जैसे यहाँ ) दोनों को परिभाषित करते देखा है ।~ β ~ β = β 2 एफ βββ~β~=β2Fβ

उपाय सटीक और याद है, अर्थात् परिशुद्धता के पारस्परिक और याद की पारस्परिक की औसत की पारस्परिक का हरात्मक माध्य लेने के द्वारा प्राप्त किया जाता है:F1

एफ1=1121शुद्धता+121याद=2शुद्धतायादशुद्धता+याद

भाजक में भार का उपयोग करने के बजाय जो कि 1 और (राशि याद के लिए और सटीक के लिए ) के बराबर हैं, हम बदले में अभी भी 1 के लिए योग को असाइन कर सकते हैं। जिस पर रिकॉल का वजन गुना है, वह वजन परिशुद्धता पर ( याद के लिए और सटीक के लिए) है। इससे स्कोर की आपकी दूसरी परिभाषा :12 ββ12β 1ββ+1 एफβ1β+1एफβ

एफβ=11β+11शुद्धता+ββ+11याद=(1+β)शुद्धतायादβशुद्धता+याद

फिर, अगर हम इस्तेमाल किया था के बजाय यहाँ हम आपका पहला परिभाषा पर, आ चुके हैं तो दो परिभाषा के बीच मतभेद सिर्फ सांकेतिक है। ββ2β


1
याद अवधि के बजाय सटीक अवधि के साथ उन्होंने बहु- क्यों बनाया ? β
अनवर

1
नीचे दिए गए एक नए उत्तर में "क्यों बीटा स्क्वार्ड और बीटा नहीं" को संबोधित करने वाला अंतर कैलकुलस ।
javadba

@Anwarvic उन्होंने उलटा याद के साथ को गुणा किया । फैक्टरिंग करने के बाद और साथ विस्तार करने के बाद एक शब्द बचा है( 1 + बीटा ) परिशुद्धता याद बीटा परिशुद्धताβ(1+β)शुद्धतायादβprecision
user2740

6

साथ एफ बीटा स्कोर को परिभाषित करने के लिए कारण वास्तव में बोली आप (यानी संलग्न करने के लिए चाहते हैं प्रदान करना है क्या यह संलग्न करने के लिए इसका मतलब है के लिए एक विशेष परिभाषा दी परिशुद्धता के रूप में याद करते हैं करने के लिए बहुत महत्व के रूप में बार) परिशुद्धता की तुलना में याद करने के लिए कई बार महत्व।β2ββ

दो मेट्रिक्स के सापेक्ष महत्व को परिभाषित करने का विशेष तरीका जो फॉर्मुलेशन की ओर जाता है, वह सूचना पुनर्प्राप्ति (वैन रिज्सबर्गेन, 1979) में पाया जा सकता है :β2

परिभाषा: किसी उपयोगकर्ता द्वारा सटीकता और रिकॉल के लिए संबंधित महत्वपूर्ण महत्व अनुपात है, जिस पर , जहां परिशुद्धता और याद के आधार पर प्रभावशीलता का माप है।P/RE/R=E/PE=E(P,R)

इस के लिए प्रेरणा:

सबसे आसान तरीका मुझे पता है कि यह अनुपात निर्दिष्ट करने के लिए है जिस पर उपयोगकर्ता याद में एक समान नुकसान के लिए सटीक रूप से वेतन वृद्धि का व्यापार करने के लिए तैयार है।P/R

यह देखने के लिए कि यह सुराग सूत्रीकरण हम की भारित हरात्मक माध्य के लिए सामान्य सूत्र के साथ शुरू कर सकते हैं और और के संबंध में उनकी आंशिक डेरिवेटिव की गणना और । स्रोत उद्धृत का उपयोग करता है ("प्रभावशीलता उपाय" के लिए), जो सिर्फ और स्पष्टीकरण बराबर है कि क्या हम या विचार करते हैं ।β2PRPRE1FEF

F=1(αP+1αR)

F/P=α(αP+1αR)2P2

F/R=1α(αP+1αR)2R2

अब, डेरिवेटिव को एक दूसरे के बराबर सेट करने से और अनुपात बीच संबंध पर प्रतिबंध लग जाता है । यह देखते हुए कि हम संलग्न करने के लिए इच्छा याद करने के लिए बहुत महत्व परिशुद्धता के रूप में हम अनुपात पर विचार करेंगे के रूप में कई बार 1 :αP/RβR/P

F/P=F/RαP2=1αR2RP=1αα

इस अनुपात के रूप में को परिभाषित करना और लिए पुन: व्यवस्थित करना, संदर्भ में :βαβ2

β=1ααβ2=1-ααβ2+1=1αα=1β2+1

1-α=1-1β2+1β2β2+1

हमने प्राप्त किया:

एफ=1(1β2+11पी+β2β2+11आर)

जिसे आपके प्रश्न में रूप देने के लिए पुनर्व्यवस्थित किया जा सकता है।

इस प्रकार, उद्धृत परिभाषा को देखते हुए, यदि आप परिशुद्धता के रूप में याद करने के लिए अधिक महत्व के रूप में बार संलग्न करना चाहते हैं तो सूत्रीकरण का उपयोग किया जाना चाहिए। यदि कोई एक का उपयोग करता है, तो यह व्याख्या नहीं है । समतुल्य, कम सहज, इस मामले में व्याख्या कि हम सिर्फ उपयोग करते हैं, यह होगा कि हम परिशुद्धता के रूप में याद रखने के लिए अधिक महत्व के रूप में बार संलग्न करना चाहते हैं ।ββ2βββ

जैसा कि आप सुझाव देते हैं, आप एक स्कोर को परिभाषित कर सकते हैं, हालांकि आपको इस बात की जानकारी होनी चाहिए कि इस मामले में या तो व्याख्या की कोई धारण नहीं है या आप सटीक और याद के बीच व्यापार की मात्रा निर्धारित करने के लिए कुछ अन्य परिभाषा दे रहे हैं।

फुटनोट:

  1. पी/आर का उपयोग सूचना पुनर्प्राप्ति में किया जाता है लेकिन यह एक टाइपो प्रतीत होता है, एफ-माप का सच देखें (सास्की, 2007)।

संदर्भ:

  1. सीजे वान रिजब्जेन। 1979. सूचना पुनर्प्राप्ति (दूसरा संस्करण), पीपी.133-134
  2. वाई। सासकी 2007. "एफ-माप का सच", शिक्षण, ट्यूटोरियल सामग्री

1
यह स्वीकृत उत्तर होना चाहिए।
jadadba

3

किसी बात को जल्दी से कहना।

इसका मतलब है कि जैसे-जैसे बीटा वैल्यू बढ़ती है, आप सटीक को अधिक महत्व देते हैं।

मुझे वास्तव में लगता है कि यह विपरीत है - चूंकि उच्च एफ-β स्कोरिंग में बेहतर है, आप चाहते हैं कि भाजक छोटा हो। इसलिए, यदि आप ished में कमी करते हैं, तो मॉडल को एक अच्छा सटीक स्कोर करने के लिए कम सजा दी जाती है। यदि आप If बढ़ाते हैं, तो सटीक होने पर एफ-pun स्कोर को अधिक दंडित किया जाता है।

यदि आप F-β स्कोरिंग को वेट करना चाहते हैं ताकि यह परिशुद्धता को मान दे, तो to 0 <β <1 होना चाहिए, जहां ,-> 0 मान केवल परिशुद्धता (अंशांक बहुत छोटा हो जाता है, और भाजक में केवल एक चीज याद आती है) इसलिए एफ-dec स्कोर कम हो जाता है क्योंकि याद बढ़ता है)।

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.fbeta_score.html


0

कारण यह है कि just ^ 2 को सटीकता से गुणा किया जाता है, जिस तरह से एफ-स्कोर को परिभाषित किया जाता है। इसका मतलब है कि जैसे-जैसे बीटा वैल्यू बढ़ती है, आप सटीक को अधिक महत्व देते हैं। यदि आप इसे रिकॉल के साथ गुणा करना चाहते हैं तो यह भी काम करेगा, इसका मतलब सिर्फ इतना होगा कि जैसे बीटा वैल्यू बढ़ती है आप वैल्यू रिकॉल को और अधिक बढ़ाते हैं।


0

1 से अधिक बीटा मान का मतलब है कि हम चाहते हैं कि हमारा मॉडल प्रेसिजन की तुलना में मॉडल रिकॉल पर अधिक ध्यान दे। दूसरे पर, 1 से कम का मान परिशुद्धता पर अधिक जोर देता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.