मल्टीलेबल डेटा की सटीकता के लिए क्या उपाय हैं?


25

एक परिदृश्य पर विचार करें, जहाँ आपको KnownLabel मैट्रिक्स और PredencedLabel मैट्रिक्स प्रदान किया गया है। मैं ज्ञात लॉबेल मैट्रिक्स के खिलाफ प्रेडिक्टेलबेल मैट्रिक्स की अच्छाई को मापना चाहता हूं।

लेकिन यहां चुनौती यह है कि नाउनलैबेल मैट्रिक्स की कुछ पंक्तियाँ केवल एक 1 है और दूसरी कुछ पंक्तियों में कई 1 (उन उदाहरणों को सबसे अधिक लेबल किया गया है) हैं। KnownLabel मैट्रिक्स का एक उदाहरण नीचे दिया गया है।

A =[1 0 0 0
    0 1 0 0
    0 1 1 0
    0 0 1 1
    0 1 1 1]

उपरोक्त मैट्रिक्स में, डेटा उदाहरण 1 और 2 एकल लेबल डेटा, डेटा उदाहरण 3 और 4 दो लेबल डेटा हैं और डेटा उदाहरण 5 तीन लेबल डेटा है।

अब मैंने एक एल्गोरिथ्म का उपयोग करके डेटा इंस्टेंस के प्रेडिटेललैब मैट्रिक्स को रखा है।

मैं विभिन्न उपायों को जानना चाहूंगा जिनका उपयोग नीडेलबेल मैट्रिक्स के खिलाफ प्रिडीटेडलैबेल मैट्रिक्स की अच्छाई को मापने के लिए किया जा सकता है।

मैं उनमें से एक के रूप में फ्रोबिनस मानदंड के अंतर के बारे में सोच सकता हूं। लेकिन सटीकता ( = Correctly_predenced_instance) जैसे उपाय की तलाश में im(=Correctly_predicted_instancetotal_instance)

यहां हम कई डेटा इंस्टेंस के लिए को कैसे परिभाषित कर सकते हैं ?Correctly_predicted


5
(+1) सिडेनोट: क्या कोई विशिष्ट कारण है कि आपने अपने अधिकांश प्रश्नों में उत्तर स्वीकार नहीं किया है? जब आप प्रदान किए गए उत्तर ने आपकी समस्या का समाधान नहीं किया तो आपने टिप्पणी क्यों पोस्ट नहीं की? जैसे: सांख्यिकी.स्टैकएक्सचेंज.com
questions

जवाबों:


23

(1) एक अच्छा अवलोकन देता है:

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

विकिपीडिया पृष्ठ n बहु लेबल वर्गीकरण मूल्यांकन मैट्रिक्स के एक वर्ग के रूप में अच्छी तरह से शामिल हैं।

मैं एक चेतावनी जोड़ूंगा कि मल्टीलेबल सेटिंग में सटीकता अस्पष्ट है: यह या तो सटीक मिलान अनुपात या हेमिंग स्कोर (इस पोस्ट को देखें) को संदर्भित कर सकता है । दुर्भाग्य से, कई कागजात "सटीकता" शब्द का उपयोग करते हैं।


(1) सॉवर, मोहम्मद एस। " मल्टी-लेबल लर्निंग के लिए एल्गोरिदम पर एक साहित्य सर्वेक्षण। " ओरेगन स्टेट यूनिवर्सिटी, कॉर्वलिस (2010)।


2
क्या ये परिभाषाएँ परिशुद्धता और स्मरण के लिए सामान्य परिभाषाओं के विरुद्ध हैं? मैंने हमेशा पढ़ा है कि परिशुद्धता को टीपी + एफपी से विभाजित करना चाहिए और याद रखना चाहिए कि टीपी + एफएन द्वारा विभाजित किया जाना चाहिए (यदि मुझे अच्छी तरह से समझा गया है तो यहां प्रस्तावित परिभाषाएं विपरीत हैं)।
टोमसैनी 14

YमैंY={0,1}कश्मीरमैंजेडमैं=(एक्समैं)={0,1}कश्मीरYमैंजेडमैं

accuracyउपाय के लिए, आप उन मामलों को कैसे प्रभावी ढंग से संभालते हैं जहां भाजक हैं |Y + Z| == 0?
इदानी

3
@tomasyany पाठ परिभाषाओं का उल्लेख कर रहा है (सूत्र नहीं), जो चारों ओर स्विच किए गए प्रतीत होते हैं।
Narfanar

और यह एपी परिभाषा अधिक एमएपी (मतलब एपी) की तरह दिखती है, नहीं? जिसे 'सटीकता' कहा जाता है, वह औसत IoU है। कुल मिलाकर शब्द काफी उलझे हुए हैं।
Narfanar

5

मल्टी-लेबल वर्गीकरण में हेमिंग लॉस संभवतः सबसे व्यापक रूप से उपयोग किया जाने वाला नुकसान फ़ंक्शन है।

मल्टी-लेबल वर्गीकरण और मल्टी-लेबल वर्गीकरण पर अनुभवजन्य अध्ययनों पर एक नज़र डालें : एक अवलोकन , जो दोनों इस पर चर्चा करते हैं।


3

Correctly Predictedसुझाए गए लेबल के सेट और अपेक्षित एक के बीच अंतर है। Total Instancesऊपर के सेट का संघ है (कोई डुप्लिकेट गिनती नहीं)।

इसलिए एक एकल उदाहरण दिया गया है जहाँ आप कक्षाओं का अनुमान लगाते हैं A, G, Eऔर परीक्षण के मामले में E, A, H, Pआपके द्वारा सही अंत के रूप में हैAccuracy = Intersection{(A,G,E), (E,A,H,P)} / Union{(A,G,E), (E,A,H,P)} = 2 / 5

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.