मेरे पास इनपुट पैरामीटर (क्लस्टर की संख्या ) के साथ एक क्लस्टरिंग एल्गोरिथ्म (k- साधन नहीं ) है। क्लस्टरिंग करने के बाद मैं इस क्लस्टरिंग की गुणवत्ता का कुछ मात्रात्मक माप प्राप्त करना चाहता हूं। क्लस्टरिंग एल्गोरिथ्म में एक महत्वपूर्ण संपत्ति है। के लिए अगर मैं फ़ीड डेटा बिंदुओं उन के बीच कोई महत्वपूर्ण अंतर के बिना इस एल्गोरिथ्म के लिए एक परिणाम मैं युक्त एक क्लस्टर मिल जाएगा के रूप में डेटा बिंदुओं और के साथ एक क्लस्टर 1 डेटा बिंदु। जाहिर है यह वह नहीं है जो मैं चाहता हूं। इसलिए मैं इस क्लस्टरिंग की उचितता का अनुमान लगाने के लिए इस गुणवत्ता माप की गणना करना चाहता हूं। आदर्श रूप से मैं अलग-अलग कश्मीर के लिए इस उपायों की तुलना करने में सक्षम हूं । तो मैं k की श्रेणी में क्लस्टरिंग चलाऊंगाऔर सबसे अच्छी गुणवत्ता के साथ एक का चयन करें। मैं ऐसे गुणवत्ता माप की गणना कैसे करूं?
अपडेट करें:
यहां एक उदाहरण है जब एक खराब क्लस्टरिंग है। मान लीजिए कि समबाहु त्रिभुज बनाने वाले समतल पर 3 बिंदु हैं। इन बिंदुओं को 2 समूहों में विभाजित करना स्पष्ट रूप से उन्हें 1 या 3 समूहों में विभाजित करने से भी बदतर है।