सर्गेई के जवाब में महत्वपूर्ण बिंदु है, जो यह है कि सिल्हूट गुणांक प्राप्त क्लस्टरिंग की गुणवत्ता को निर्धारित करता है - इसलिए आपको सिल्हूट गुणांक को अधिकतम करने वाले समूहों की संख्या का चयन करना चाहिए।
दीर्घ उत्तर यह है कि आपके क्लस्टरिंग प्रयासों के परिणामों का मूल्यांकन करने का सबसे अच्छा तरीका वास्तव में जांच करना है - मानव निरीक्षण - क्लस्टर का गठन और डेटा क्या दर्शाता है, क्या क्लस्टर का प्रतिनिधित्व करता है की समझ के आधार पर एक दृढ़ संकल्प बना रहा है, और क्लस्टरिंग क्या हासिल करना है।
क्लस्टरिंग परिणामों के मूल्यांकन के कई मात्रात्मक तरीके हैं जो कि सीमाओं के पूर्ण समझ के साथ उपकरण के रूप में उपयोग किए जाने चाहिए। वे प्रकृति में काफी सहज होते हैं, और इस तरह एक प्राकृतिक अपील होती है (जैसे सामान्य रूप से क्लस्टरिंग समस्याएं)।
उदाहरण: क्लस्टर मास / त्रिज्या / घनत्व, समूहों के बीच सामंजस्य या अलगाव, ये अवधारणाएं अक्सर संयुक्त होती हैं, उदाहरण के लिए, जुदाई का अनुपात बड़ा होना चाहिए अगर क्लस्टरिंग सफल रहा।
जिस तरह से क्लस्टरिंग को मापा जाता है उसका उपयोग उपयोग किए जाने वाले क्लस्टरिंग एल्गोरिदम के प्रकार से किया जाता है। उदाहरण के लिए, एक पूर्ण क्लस्टरिंग एल्गोरिथ्म (जिसमें सभी बिंदुओं को क्लस्टर में रखा गया है) की गुणवत्ता को मापना एक थ्रेशोल्ड-आधारित फ़ज़ी क्लस्टरिंग एल्गोरिथ्म की गुणवत्ता को मापने से बहुत अलग हो सकता है (जिसमें कुछ बिंदु को 'शोर' से अन-क्लस्टर किया जा सकता है) )।
सिल्हूट गुणांक एक ऐसा उपाय है। यह निम्नानुसार काम करता है:
प्रत्येक बिंदु पी के लिए, पहले पी और अन्य सभी बिंदुओं के बीच एक ही क्लस्टर में औसत दूरी का पता लगाएं (यह सामंजस्य का एक उपाय है, इसे ए कहें)। फिर निकटतम क्लस्टर में पी और सभी बिंदुओं के बीच औसत दूरी का पता लगाएं (यह निकटतम अन्य क्लस्टर से अलग होने का एक उपाय है, इसे बी कहते हैं)। पी के लिए सिल्हूट गुणांक को बी और ए के बीच अंतर के रूप में परिभाषित किया गया है जो दो से अधिक (अधिकतम (ए, बी)) है।
हम प्रत्येक बिंदु के क्लस्टर गुणांक का मूल्यांकन करते हैं और इसमें से हम 'समग्र' औसत क्लस्टर गुणांक प्राप्त कर सकते हैं।
सहज रूप से, हम गुच्छों के बीच की जगह को मापने की कोशिश कर रहे हैं। यदि क्लस्टर सामंजस्य अच्छा है (ए छोटा है) और क्लस्टर पृथक्करण अच्छा है (बी बड़ा है), अंश बड़ा होगा आदि।
मैंने इस चित्र को प्रदर्शित करने के लिए यहां एक उदाहरण का निर्माण किया है।
इन भूखंडों में एक ही डेटा को पांच बार प्लॉट किया जाता है; रंग k- 1,2,3,4,5 के साथ k- साधन क्लस्टरिंग द्वारा बनाए गए समूहों को इंगित करते हैं। यही है, मैंने डेटा को 2 समूहों में विभाजित करने के लिए एक क्लस्टरिंग एल्गोरिदम को मजबूर किया है, फिर 3, और इसी तरह, और तदनुसार ग्राफ को रंगीन किया।
सिल्हूट प्लॉट से पता चलता है कि सिल्हूट गुणांक k = 3 के उच्चतम था, यह सुझाव देते हुए कि समूहों की इष्टतम संख्या है। इस उदाहरण में हम भाग्यशाली हैं जो डेटा की कल्पना करने में सक्षम हैं और हम इस बात से सहमत हो सकते हैं कि वास्तव में, तीन क्लस्टर इस डेटा सेट के विभाजन को सर्वश्रेष्ठ रूप से पकड़ते हैं।
यदि हम डेटा की कल्पना करने में असमर्थ थे, शायद उच्च आयामीता के कारण, एक सिल्हूट साजिश अभी भी हमें एक सुझाव देगी। हालाँकि, मुझे उम्मीद है कि मेरे कुछ लंबे-लंबे जवाब यहाँ भी इस बात की ओर इशारा करते हैं कि यह "सुझाव" कुछ परिदृश्यों में बहुत अपर्याप्त या सिर्फ सादा गलत हो सकता है।