आप उलझन की गणना कैसे करते हैं और भ्रम मैट्रिक्स का उपयोग करके मल्टीस्कल्स वर्गीकरण के लिए याद करते हैं?


92

मुझे आश्चर्य है कि एक बहु-श्रेणी वर्गीकरण समस्या के लिए उलझन मैट्रिक्स का उपयोग करके परिशुद्धता की गणना कैसे करें और याद करें। विशेष रूप से, एक अवलोकन केवल अपने सबसे संभावित वर्ग / लेबल को सौंपा जा सकता है। मैं गणना करना चाहूंगा:

  • परिशुद्धता = टीपी / (टीपी + एफपी)
  • याद करें = टीपी / (टीपी + एफएन)

प्रत्येक वर्ग के लिए, और फिर सूक्ष्म-औसत एफ-माप की गणना करें।


यह डॉकएक्स , एक वर्गीकरण मॉडल का मूल्यांकन - सटीक और याद क्या मुझे बताता है? , से Compumine भ्रम मैट्रिक्स और इसे से प्राप्त उपायों के लिए एक सरल परिचय प्रदान करता है। यह भ्रम मैट्रिक्स, सटीक, याद, विशिष्टता और सटीकता बनाने में मदद करता है।
जयरान चोपन

4
इसका जवाब यहां खोजें। बहुत अच्छी व्याख्या youtube.com/watch?v=FAr2GmWNbT0

Compumine लिंक मृत है।
ट्रेंटन

मल्टीक्लास केस के लिए, मैं जो समझता हूं कि पंक्तियों के साथ (अक्ष = 0) रिकॉल है और कॉलम के साथ (अक्ष = 1) सटीक है। rxnlp.com/…
MD ZIA ULLAH

जवाबों:


69

2-परिकल्पना मामले में, भ्रम मैट्रिक्स आमतौर पर है:

       | Declare H1  |  Declare H0 |
|Is H1 |    TP       |   FN        |
|Is H0 |    FP       |   TN        |

जहाँ मैंने आपके अंकन के समान कुछ प्रयोग किया है:

  • टीपी = वास्तविक सकारात्मक (एच 1 घोषित करें, जब सच में, एच 1),
  • FN = गलत नकारात्मक (H0 को घोषित करें, जब सत्य में, H1),
  • एफपी = झूठी सकारात्मक
  • टीएन = सच नकारात्मक

कच्चे डेटा से, तालिका के मान आमतौर पर परीक्षण डेटा पर प्रत्येक घटना के लिए मायने रखते हैं। इससे, आपको आवश्यक मात्रा की गणना करने में सक्षम होना चाहिए।

संपादित करें

मल्टी-क्लास समस्याओं का सामान्यीकरण भ्रम मैट्रिक्स की पंक्तियों / स्तंभों पर योग करना है। यह देखते हुए कि मैट्रिक्स ऊपर की ओर उन्मुख है, अर्थात, मैट्रिक्स की एक दी गई पंक्ति "सत्य" के विशिष्ट मूल्य से मेल खाती है, हम हैं:

Precision i=MiijMji

Recall i=MiijMij

यही है, परिशुद्धता उन घटनाओं का एक अंश है जहां हमने सही तरीके से सभी उदाहरणों से बाहर घोषित किया है जहां एल्गोरिदम ने घोषित किया है । इसके विपरीत, याद घटनाओं जहां हम सही ढंग से घोषित के अंश है ऐसे मामलों में जहां दुनिया की स्थिति का सच है के सभी से बाहर ।मैं मैं मैंiiii


1
मेरे मामले में, 10+ वर्ग हैं, इसलिए मुझे लगता है कि एफएन का अर्थ होगा घोषित वर्ग एच (i) की कुल गणना, i! = 1; और एफपी समान है?
डेय्यू

हाय, मुझे आश्चर्य है कि टीप + एफपी = 0, और टीपी + एफएन = 0 अगर भ्रम मैट्रिक्स में कुछ वास्तविक वर्ग के लिए, मान क्या है, तो प्रेसिजन और रिकॉल के लिए होगा।
डेय्यू

क्लास के लिए सटीक iअपरिभाषित है यदि कोई उदाहरण नहीं हैं जहां एल्गोरिदम घोषित करता है iiयदि परीक्षण सेट में कक्षा शामिल नहीं है, तो कक्षा के लिए याद अपरिभाषित है i
डेव

मेरा अंतिम लक्ष्य मैक्रो एफ माप की गणना है, इसलिए मुझे प्रत्येक कक्षा i के लिए सटीक और याद रखने वाले मूल्यों की आवश्यकता है; तो मैक्रो-एफ उपाय की गणना मैं कैसे कर सकता हूं यदि उपरोक्त दो मामले किसी वर्ग में दिखाई देते हैं i? विशेष रूप से, Fi के लिए मान क्या है, और क्या क्लास i को एम कक्षाओं में से एक के रूप में गिना जाता है, कि एम में तत्वों की संख्या को मैक्रो एफ माप की गणना के लिए सूत्र के हर के रूप में गिना जाएगा।
डेय्यू

1
sry, क्या आप अपने विचार को अधिक स्पष्ट रूप से समझा सकते हैं?
डेय्यू

31

बहु-वर्ग समस्याओं के लिए इन मेट्रिक्स को देखकर अच्छा सारांश पेपर:

  • सोकोलोवा, एम।, और लाप्लामे, जी। (2009)। वर्गीकरण कार्यों के लिए प्रदर्शन के उपायों का एक व्यवस्थित विश्लेषण। सूचना प्रसंस्करण और प्रबंधन, 45 , पी। 427-437। ( pdf )

सार पढ़ता है:

यह पत्र मशीन लर्निंग वर्गीकरण कार्यों, यानी बाइनरी, मल्टी-क्लास, मल्टी-लेबल और पदानुक्रमित के पूर्ण स्पेक्ट्रम में इस्तेमाल किए गए चौबीस प्रदर्शन उपायों का एक व्यवस्थित विश्लेषण प्रस्तुत करता है। प्रत्येक वर्गीकरण कार्य के लिए, अध्ययन डेटा की विशिष्ट विशेषताओं के लिए एक भ्रम मैट्रिक्स में परिवर्तन का एक सेट संबंधित है। फिर विश्लेषण एक उलझन मैट्रिक्स के परिवर्तनों के प्रकार पर ध्यान केंद्रित करता है जो एक माप नहीं बदलता है, इसलिए, एक क्लासिफायरियर के मूल्यांकन (उपाय invariance) को संरक्षित करें। परिणाम एक वर्गीकरण समस्या में सभी प्रासंगिक लेबल वितरण परिवर्तनों के संबंध में माप इनवॉइस टैक्सोनॉमी है। यह औपचारिक विश्लेषण अनुप्रयोगों के उदाहरणों द्वारा समर्थित है, जहां उपायों के विलक्षण गुण क्लासिफायरियर के अधिक विश्वसनीय मूल्यांकन की ओर ले जाते हैं।


2
साइट में आपका स्वागत है, @JamesTaylor। क्या आप पाठकों को लिंक किए गए पेपर में जानकारी का सारांश देने में मदद करेंगे, ताकि पाठकों को यह तय करने में मदद मिल सके कि क्या लिंक की मृत्यु हो गई है?
गंग

8

स्केलेर और सुपी का उपयोग करना:

from sklearn.metrics import confusion_matrix
import numpy as np

labels = ...
predictions = ...

cm = confusion_matrix(labels, predictions)
recall = np.diag(cm) / np.sum(cm, axis = 1)
precision = np.diag(cm) / np.sum(cm, axis = 0)

सटीक और याद के समग्र उपाय प्राप्त करने के लिए, तब उपयोग करें

np.mean(recall)
np.mean(precision)
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.