प्रेसिजन-रिकॉल वक्र (पीआर-वक्र के एयूसी) और औसत परिशुद्धता (एपी) के तहत क्षेत्र


27

क्या औसत परिशुद्धता (एपी) परिशुद्धता-रिकॉल वक्र (पीआर-वक्र के एयूसी) के तहत क्षेत्र है?

संपादित करें:

यहाँ पीआर एयूसी और एपी में अंतर के बारे में कुछ टिप्पणी है।

AUC परिशुद्धता के ट्रैपेज़ोइडल प्रक्षेप द्वारा प्राप्त किया जाता है। एक विकल्प और आमतौर पर लगभग बराबर मीट्रिक औसत परिशुद्धता (एपी) है, जिसे info.ap के रूप में लौटाया जाता है। हर बार नया पॉजिटिव सैंपल वापस बुलाने पर प्राप्त की गई औसत का यह औसत है। यह एयूसी के समान है यदि सटीक निरंतर खंडों द्वारा प्रक्षेपित किया जाता है और टीआरईसी द्वारा सबसे अधिक बार उपयोग की जाने वाली परिभाषा है।

http://www.vlfeat.org/overview/plots-rank.html

इसके अलावा, auc और औसत_परिचय_अंक परिणाम scikit- सीखने में समान नहीं हैं। यह अजीब है, क्योंकि प्रलेखन में हमारे पास है:

भविष्यवाणी स्कोर से औसत सटीक (एपी) गणना करें यह स्कोर सटीक-रिकॉल वक्र के तहत क्षेत्र से मेल खाता है।

यहाँ कोड है:

# Compute Precision-Recall and plot curve
precision, recall, thresholds = precision_recall_curve(y_test, clf.predict_proba(X_test)[:,1])
area = auc(recall, precision)
print "Area Under PR Curve(AP): %0.2f" % area  #should be same as AP?

print 'AP', average_precision_score(y_test, y_pred, average='weighted')
print 'AP', average_precision_score(y_test, y_pred, average='macro')
print 'AP', average_precision_score(y_test, y_pred, average='micro')
print 'AP', average_precision_score(y_test, y_pred, average='samples')

मेरी कक्षा के लिए मेरे पास कुछ ऐसा है:

Area Under PR Curve(AP): 0.65
AP 0.676101781304
AP 0.676101781304
AP 0.676101781304
AP 0.676101781304

जवाबों:


15

संक्षिप्त उत्तर है: हाँ । औसत परिशुद्धता एक एकल संख्या है जिसका उपयोग एक प्रेसिजन-रिकॉल वक्र को संक्षेप में करने के लिए किया जाता है:

यहाँ छवि विवरण दर्ज करें

आप अभिन्न (वक्र के नीचे क्षेत्र) के साथ अनुमानित कर सकते हैं:

यहाँ छवि विवरण दर्ज करें

अच्छी व्याख्या के लिए कृपया इस लिंक पर एक नज़र डालें ।


इस टिप्पणी के बारे में क्या? "एयूसी को सटीक के ट्रैपोज़ाइडल इंटरपोलेशन द्वारा प्राप्त किया जाता है। एक विकल्प और आमतौर पर लगभग बराबर मीट्रिक औसत परिशुद्धता (एपी) है, जिसे सूचना के रूप में लौटाया जाता है। यह हर बार प्राप्त किए गए सटीक का औसत है जब एक नया सकारात्मक नमूना वापस बुलाया जाता है। यह एयूसी के समान है यदि सटीक निरंतर खंडों द्वारा प्रक्षेपित किया जाता है और टीआरईसी द्वारा सबसे अधिक बार उपयोग की जाने वाली परिभाषा है। " vlfeat.org/overview/plots-rank.html
mrgloom

1
मुझे लगता है कि मेरे द्वारा दिए गए लिंक में व्याख्या की गई औसत शुद्धता काthe average of the precision obtained every time a new positive sample is recalled उल्लेख है । कुछ लेखकों ने एक वैकल्पिक सन्निकटन का चयन किया है जिसे प्रक्षेपित औसत परिशुद्धता कहा जाता है । भ्रामक रूप से, वे अभी भी इसे औसत परिशुद्धता कहते हैं।
झूबारब

कुछ त्वरित प्रश्न: 1) क्यों समन्वय (याद = 0, परिशुद्धता = 1)? मुझे कोई मतलब नहीं है। 2) जैसा कि आप देख सकते हैं, यदि हम क्लासिफायर की सीमा को कम करते हैं, तो अधिक परिणाम वापस आ सकते हैं, और परिणामस्वरूप, याददाश्त में वृद्धि नहीं हो सकती है, लेकिन सटीक भिन्न हो सकती है, उदाहरण के लिए, कुल मिलाकर 2 सकारात्मक आइटम के साथ, यहां रैंक किए गए परिणाम हैं = [झूठी, सच्ची, झूठी, झूठी, सच्ची], इसलिए पीआर जोड़े = [(पी = 0, आर = 0), (1/2, 1/2), (1/3, 1/2), (1 / 4, 1/2), (2/5, 2/2)], जैसा कि आप देख सकते हैं, r = 1/2 के लिए, वहाँ हैं 3 p (यानी 1/2, 1/3, 1/4) , जैसा कि आपके ग्राफ में r = 0.8 पर है, ठीक है बस उसी x अक्ष पर उन्हें प्लॉट करें?
एवोकैडो

2

average_precision_score फ़ंक्शन दूसरे पैरामीटर के रूप में विश्वास या संभावना की उम्मीद करता है।

तो आप इसे नीचे के रूप में उपयोग करना चाहिए,

average_precision_score(y_test, clf.predict_proba(X_test)[:,1])

और फिर यह aucफ़ंक्शन का एक ही परिणाम है ।


WEKA सॉफ्टवेयर और स्किटिट-लर्न में विभिन्न उदाहरण सीएलएफ स्कोर प्रदान करते हैं लेकिन एयूसी नहीं। क्या ऐसा हो सकता है कि यह सीएलएफ स्कोर वास्तव में किसी तरह से एयूसी से संबंधित है या यहां तक ​​कि एयूसी भी हो सकता है?
hhh
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.