जब मैं PR के लिए केवल एक मूल्य रखता हूँ तो एक प्रेसिजन-रिकॉल वक्र कैसे बनता है?


12

मेरे पास एक डेटा माइनिंग असाइनमेंट है जहां मैं सामग्री-आधारित छवि पुनर्प्राप्ति प्रणाली बनाता हूं। मेरे पास 5 जानवरों की 20 छवियां हैं। तो कुल 100 छवियों में।

मेरा सिस्टम एक इनपुट छवि के लिए 10 सबसे अधिक प्रासंगिक छवियों को लौटाता है। अब मुझे प्रेसिजन-रिकॉल वक्र के साथ अपने सिस्टम के प्रदर्शन का मूल्यांकन करने की आवश्यकता है। हालांकि, मैं एक प्रेसिजन-रिकॉल वक्र की अवधारणा को नहीं समझता हूं। मान लीजिए कि मेरी प्रणाली गोरिल्ला छवि के लिए 10 चित्र लौटाती है, लेकिन उनमें से केवल 4 गोरिल्ला हैं। लौटे अन्य 6 चित्र अन्य जानवर हैं '। इस प्रकार,

  • सटीक है 4/10 = 0.4(relevants लौटे) / (सभी लौट आए)
  • याद है 4/20 = 0.2(प्रासंगिकता लौटा दी गई है) / (सभी प्रासंगिक)

इसलिए मेरे पास केवल एक बिंदु है, <0.2,0.4>वक्र नहीं। मेरे पास एक वक्र (यानी, अंकों का एक सेट) कैसे है? क्या मुझे लौटाई गई छवियों की संख्या बदलनी चाहिए (यह मेरे मामले में 10 पर तय है)?


2
अधिकांश मॉडल एक वर्ग से संबंधित होने की संभावना प्रदान करते हैं, न कि स्वयं एक वर्ग - या आप किसी एक वर्ग से बाहर निचोड़ लेते हैं। वक्र की संभावना कट-ऑफ को बदलकर की गई है। यदि आप अपने उपयोग करने वाले क्लासिफायर का उल्लेख करते हैं, तो आपको अधिक विस्तृत उत्तर मिलेंगे।
charles

मैं फ़ीचर वैक्टर (रंग, बनावट और आकार) की गणना करता हूं और प्रत्येक के लिए समानता स्कोर प्राप्त करता हूं, उन्हें कुल समानता स्कोर के लिए योग करता हूं, फिर अवरोही क्रमबद्ध करता हूं। शीर्ष 10 छवि सूचकांक सबसे अधिक प्रासंगिक हैं। मैं इमेज इंडेक्स से क्लास इंडेक्स प्राप्त कर सकता हूं क्योंकि छवियों का आदेश दिया गया है (20 गोरिल्ला, 20 जिराफ आदि) मुझे आशा है कि मैंने खुद को स्पष्ट कर दिया है, क्योंकि मैं अवधारणाओं को क्लासिफायर / डिस्क्रिप्टर आदि को पूरी तरह से नहीं समझता हूं
जेफ

एहसास हुआ कि मैंने प्रश्न को अच्छी तरह से नहीं पढ़ा है। सोचा कि आपको दो वर्ग की समस्या है (गोरिल्ला / नो-गोरिल्ला)। मेरे से अधिक वर्गों के साथ, यह मददगार हो सकता है: आंकड़े.stackexchange.com/questions/2151/…
charles

जवाबों:


11

पीआर वक्र उत्पन्न करना आरओसी वक्र उत्पन्न करने के समान है। ऐसे भूखंडों को खींचने के लिए आपको परीक्षण सेट की पूरी रैंकिंग की आवश्यकता होती है। इस रैंकिंग को बनाने के लिए, आपको एक क्लासिफायर की आवश्यकता होती है जो एक द्विआधारी उत्तर के बजाय एक निर्णय मूल्य को आउटपुट करता है । निर्णय मूल्य एक भविष्यवाणी में विश्वास का एक उपाय है जिसका उपयोग हम सभी परीक्षण उदाहरणों को रैंक करने के लिए कर सकते हैं। एक उदाहरण के रूप में, लॉजिस्टिक रिग्रेशन और एसवीएम के निर्णय मूल्य क्रमशः अलग-अलग हाइपरप्लेन के लिए एक संभावना और (हस्ताक्षरित) दूरी हैं।

यदि आप निर्णय मानों का निपटान करते हैं, तो आपने कहा कि निर्णय मानों पर थ्रेसहोल्ड का एक सेट परिभाषित है। ये थ्रेसहोल्ड एक क्लासिफायर की विभिन्न सेटिंग्स हैं : जैसे कि आप रूढ़िवाद के स्तर को नियंत्रित कर सकते हैं। लॉजिस्टिक रिग्रेशन के लिए, डिफ़ॉल्ट थ्रेशोल्ड लेकिन आप की पूरी रेंज पर जा सकते हैं । आमतौर पर, थ्रेसहोल्ड को अद्वितीय निर्णय मान के लिए चुना जाता है जो आपके मॉडल को परीक्षण सेट के लिए मिला है।(एक्स)=0.5(0,1)

दहलीज के प्रत्येक विकल्प पर, आपका मॉडल विभिन्न भविष्यवाणियों (जैसे सकारात्मक और नकारात्मक भविष्यवाणियों की अलग-अलग संख्या) का उत्पादन करता है। जैसे, आपको अलग-अलग सटीकता के साथ का एक सेट मिलता है और हर थ्रेसहोल्ड पर याद किया जाता है, जैसे का एक सेट । पीआर वक्र को जोड़े के आधार पर तैयार किया गया है ।(टीमैं,पीमैं,आरमैं)(पीमैं,आरमैं)

यदि मैंने आपकी टिप्पणी को सही ढंग से समझा, तो आपके द्वारा गणना की गई कुल समानता स्कोर का उपयोग निर्णय मूल्य के रूप में किया जा सकता है।


यह मेरे लिए स्पष्ट नहीं है, क्या आप ओपी की पशु छवि पुनर्प्राप्ति स्थिति के समान एक विस्तृत उदाहरण के साथ काम कर सकते हैं?
एमआर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.