शुद्धता की गणना कैसे करें?


16

क्लस्टर विश्लेषण में हम शुद्धता की गणना कैसे करते हैं? क्या है समीकरण?

मैं यह करने के लिए एक कोड की तलाश नहीं कर रहा हूं।

enter image description here

चलो ωk क्लस्टर कश्मीर, और हो cj हो वर्ग जे।

तो शुद्धता व्यावहारिक रूप से सटीकता है? ऐसा लगता है कि नमूना आकार पर क्लस्टर प्रति सही मायने में वर्गीकृत वर्ग की राशि को समेट रहा था।

समीकरण स्रोत

सवाल यह है कि आउटपुट और इनपुट के बीच क्या संबंध है?

अगर वहाँ वास्तव में सकारात्मक (टीपी), सच में नकारात्मक (TN), गलत तरीके से सकारात्मक (FP), गलत तरीके से नकारात्मक (FN) है। क्या यह ?Purity=TPK(TP+TN+FP+FN)


3
अगर आपको बस एक त्वरित परिभाषा की आवश्यकता है: शीर्ष गूगल खोज क्लस्टरिंग शुद्धता पर ** लिंक यहां दी गई है जो गणितीय परिभाषा देती है। (** मेरे लिए, कम से कम - आपके अलग-अलग परिणाम भिन्न हो सकते हैं)
Glen_b -Reinstate Monica

मुझे पता नहीं है कि 'पवित्रता' से आपका क्या तात्पर्य है, लेकिन डेविड कोलक्वाउन ने पीपी पर द्विपद नमूने के उदाहरण के रूप में "हृदय की शुद्धता का काला जादुई परख" का उपयोग किया है। 111-114 उनकी उत्कृष्ट पाठ्यपुस्तक व्याख्यान विद्या बायस्टैटिस्टिक्स (1971) जो कि है। लेखक की वेबसाइट से एक नि: शुल्क पीडीएफ के रूप में उपलब्ध है: dcscience.net भले ही यह आपके प्रश्न के लिए अप्रासंगिक हो, यह एक शानदार कहानी है।
माइकल ल्यू

वर्गीकरण के पेड़ों में अशुद्धता को मापने के लिए कुछ कार्य हैं: पुनरुत्थान त्रुटि, जिन-सूचकांक और एन्ट्रॉपी। (वर्गीकरण के पेड़ एक विशिष्ट प्रकार के क्लस्टरिंग करते हैं, इसलिए मुझे लगता है कि यह प्रासंगिक होना चाहिए।) आशा है कि यह मदद करता है!
एंजेलोर्फ

जवाबों:


26

क्लस्टर विश्लेषण के संदर्भ में, शुद्धता क्लस्टर गुणवत्ता का एक बाहरी मूल्यांकन मानदंड है। यह इकाई श्रेणी [0..1] में सही ढंग से वर्गीकृत की गई वस्तुओं (डेटा बिंदु) की कुल संख्या का प्रतिशत है।

Purity=1Ni=1kmaxj|citj|

जहाँ N = वस्तुओं की संख्या (डेटा पॉइंट), k = समूहों की संख्या, ci , C में क्लस्टर है और tj वर्गीकरण जो क्लस्टर के लिए अधिकतम संख्या अधिक है है ci

जब हम "सही ढंग से" कहते हैं कि प्रत्येक क्लस्टर ci ने वस्तुओं के एक समूह को उसी वर्ग के रूप में पहचाना है जिसे जमीनी सच्चाई ने संकेत दिया है। हम जमीनी सच्चाई वर्गीकरण का उपयोग ti काम शुद्धता के उपाय के रूप में उन वस्तुओं की, हालांकि ऐसा करने हमें पता होना चाहिए जो क्लस्टर ci जो जमीनी सच्चाई वर्गीकरण नक्शे ti । यदि यह 100% सही थे तो प्रत्येक ci वास्तव में 1 करने के लिए नक्शे होगा ti , लेकिन वास्तव में हमारे ciकुछ ऐसे बिंदु शामिल हैं जिनकी जमीनी सच्चाई ने उन्हें कई अन्य वर्गीकरणों के रूप में वर्गीकृत किया है। स्वाभाविक रूप से तो हम देख सकते हैं का उपयोग करके कि उच्चतम क्लस्टरिंग गुणवत्ता प्राप्त की जाएगी ci करने के लिए ti मानचित्रण जो सही वर्गीकरण की सबसे अधिक संख्या अर्थात citi । यही कारण है कि जहां है max समीकरण में से आता है।

पवित्रता की गणना करने के लिए सबसे पहले अपनी उलझन मैट्रिक्स बनाएं। यह प्रत्येक क्लस्टर ci माध्यम से लूप करके किया जा सकता है और गिनती कर सकता है कि कितनी वस्तुओं को प्रत्येक वर्ग ti रूप में वर्गीकृत किया गया था ।

   |  T1 |  T2  |  T3
---------------------
C1 |  0  |  53  |  10
C2 |  0  |  1   |  60
C3 |  0  |  16  |  0

तब के लिए प्रत्येक समूह ci , इसकी पंक्ति से अधिकतम मान का चयन करें, उन्हें एक साथ योग करें और अंत में डेटा बिंदुओं की कुल संख्या से विभाजित करें।

Purity = (53 + 60 + 16) / 140 = 0.92142

क्या आप एंट्रॉपी के लिए भी जवाब दे सकते हैं?
मॉन्स्टरमोरपीजी


tjmaxj
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.