क्लस्टर विश्लेषण के संदर्भ में, शुद्धता क्लस्टर गुणवत्ता का एक बाहरी मूल्यांकन मानदंड है। यह इकाई श्रेणी [0..1] में सही ढंग से वर्गीकृत की गई वस्तुओं (डेटा बिंदु) की कुल संख्या का प्रतिशत है।
Purity=1N∑i=1kmaxj|ci∩tj|
जहाँ N = वस्तुओं की संख्या (डेटा पॉइंट), k = समूहों की संख्या, ci , C में क्लस्टर है और tj वर्गीकरण जो क्लस्टर के लिए अधिकतम संख्या अधिक है है ci
जब हम "सही ढंग से" कहते हैं कि प्रत्येक क्लस्टर ci ने वस्तुओं के एक समूह को उसी वर्ग के रूप में पहचाना है जिसे जमीनी सच्चाई ने संकेत दिया है। हम जमीनी सच्चाई वर्गीकरण का उपयोग ti काम शुद्धता के उपाय के रूप में उन वस्तुओं की, हालांकि ऐसा करने हमें पता होना चाहिए जो क्लस्टर ci जो जमीनी सच्चाई वर्गीकरण नक्शे ti । यदि यह 100% सही थे तो प्रत्येक ci वास्तव में 1 करने के लिए नक्शे होगा ti , लेकिन वास्तव में हमारे ciकुछ ऐसे बिंदु शामिल हैं जिनकी जमीनी सच्चाई ने उन्हें कई अन्य वर्गीकरणों के रूप में वर्गीकृत किया है। स्वाभाविक रूप से तो हम देख सकते हैं का उपयोग करके कि उच्चतम क्लस्टरिंग गुणवत्ता प्राप्त की जाएगी ci करने के लिए ti मानचित्रण जो सही वर्गीकरण की सबसे अधिक संख्या अर्थात ci∩ti । यही कारण है कि जहां है max समीकरण में से आता है।
पवित्रता की गणना करने के लिए सबसे पहले अपनी उलझन मैट्रिक्स बनाएं। यह प्रत्येक क्लस्टर ci माध्यम से लूप करके किया जा सकता है और गिनती कर सकता है कि कितनी वस्तुओं को प्रत्येक वर्ग ti रूप में वर्गीकृत किया गया था ।
| T1 | T2 | T3
---------------------
C1 | 0 | 53 | 10
C2 | 0 | 1 | 60
C3 | 0 | 16 | 0
तब के लिए प्रत्येक समूह ci , इसकी पंक्ति से अधिकतम मान का चयन करें, उन्हें एक साथ योग करें और अंत में डेटा बिंदुओं की कुल संख्या से विभाजित करें।
Purity = (53 + 60 + 16) / 140 = 0.92142