मैंने अलग-अलग बाइनरी वर्गीकरण एल्गोरिदम पर एक ही डेटासेट के साथ 10-गुना क्रॉस सत्यापन चलाया, और माइक्रो और मैक्रो औसत परिणाम दोनों प्राप्त किए। यह उल्लेख किया जाना चाहिए कि यह एक बहु-लेबल वर्गीकरण समस्या थी।
मेरे मामले में, सच्चे नकारात्मक और सकारात्मक सकारात्मक को समान रूप से तौला जाता है। इसका मतलब है कि सही नकारात्मक की भविष्यवाणी करना उतना ही महत्वपूर्ण है, जितना कि सही सकारात्मक का पूर्वानुमान लगाना।
माइक्रो-एवरेज किए गए उपाय मैक्रो एवरेज वाले की तुलना में कम हैं। यहाँ एक तंत्रिका नेटवर्क और समर्थन वेक्टर मशीन के परिणाम हैं:
मैंने उसी एल्गोरिथ्म पर किसी अन्य एल्गोरिथ्म के साथ प्रतिशत-विभाजन परीक्षण भी चलाया। परिणाम थे:
मैं मैक्रो-औसत परिणामों के साथ प्रतिशत-विभाजन परीक्षण की तुलना करना पसंद करूंगा, लेकिन क्या यह उचित है? मुझे विश्वास नहीं है कि मैक्रो-एवरेज किए गए परिणाम पक्षपाती हैं क्योंकि सच्ची सकारात्मकता और सच्ची नकारात्मकताओं को समान रूप से तौला जाता है, लेकिन फिर, मुझे आश्चर्य है कि क्या यह संतरे के साथ सेब की तुलना करने के समान है?
अपडेट करें
टिप्पणियों के आधार पर मैं दिखाऊंगा कि माइक्रो और मैक्रो औसत की गणना कैसे की जाती है।
मेरे पास 144 लेबल हैं (सुविधाओं या विशेषताओं के समान) जो मैं भविष्यवाणी करना चाहता हूं। प्रत्येक लेबल के लिए परिशुद्धता, रिकॉल और एफ-माप की गणना की जाती है।
---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
? | ? | ? | ? | .. | ?
---------------------------------------------------
एक द्विआधारी मूल्यांकन उपाय बी (tp, tn, fp, fn) को ध्यान में रखते हुए गणना की जाती है जो कि वास्तविक सकारात्मक (tp), वास्तविक नकारात्मक (tn), झूठी सकारात्मक (fp) और झूठी नकारात्मक (fn) के आधार पर गणना की जाती है। एक विशिष्ट माप के मैक्रो और माइक्रो औसत की गणना निम्नानुसार की जा सकती है:
इन सूत्रों का उपयोग करके हम सूक्ष्म और स्थूल औसत की गणना इस प्रकार कर सकते हैं:
इसलिए, सूक्ष्म-औसत उपाय सभी tp, fp और fn (प्रत्येक लेबल के लिए) जोड़ते हैं, इसके बाद एक नया बाइनरी मूल्यांकन किया जाता है। मैक्रो-एवरेज किए गए उपाय सभी उपाय (प्रेसिजन, रिकॉल या एफ-माप) जोड़ते हैं और लेबल की संख्या के साथ विभाजित करते हैं, जो औसत से अधिक है।
अब, सवाल यह है कि कौन सा उपयोग करना है?