कुछ चीजें हैं जिनके बारे में पता होना चाहिए।
सबसे आंतरिक क्लस्टरिंग मानदंड की तरह , कैलिंस्की-हरबास एक अनुमानी उपकरण है। इसका उपयोग करने का उचित तरीका समान डेटा पर प्राप्त क्लस्टरिंग समाधानों की तुलना करना है, - समाधान जो क्लस्टर की संख्या या उपयोग किए गए क्लस्टरिंग विधि द्वारा भिन्न होते हैं।
कोई "स्वीकार्य" कट-ऑफ मूल्य नहीं है। आप बस सीएच मान की तुलना आंख से करते हैं। उच्च मूल्य, "बेहतर" समाधान है। यदि सीएच मानों की लाइन-प्लॉट पर ऐसा प्रतीत होता है कि एक समाधान एक चोटी या कम से कम अचानक कोहनी देता है, तो इसे चुनें। यदि, इसके विपरीत, रेखा चिकनी है - क्षैतिज या आरोही या अवरोही - तो दूसरों के लिए एक समाधान पसंद करने का कोई कारण नहीं है।
CH मानदंड एनोवा विचारधारा पर आधारित है। इसलिए, इसका तात्पर्य यह है कि क्लस्टर की गई वस्तुएं यूक्लिडियन स्केल ऑफ स्केल (न कि ऑर्डिनल या बाइनरी या नॉमिनल) वेरिएबल्स में होती हैं। यदि डेटा क्लस्टर एक्स ऑब्जेक्ट्स नहीं थे, लेकिन ऑब्जेक्ट्स के बीच असमानताओं का एक मैट्रिक्स है, तो डिसिमिलरिटी उपाय (स्क्वेरड) यूक्लिडियन दूरी (या, इससे भी बदतर, गुणों के द्वारा यूक्लिडिड दूरी के निकट आने वाली अन्य मीट्रिक दूरी) होना चाहिए।
1
आइए एक उदाहरण देखें। नीचे डेटा का एक प्रकार है जो 5 सामान्य रूप से वितरित समूहों के रूप में उत्पन्न हुआ था जो एक दूसरे के काफी करीब हैं।
ये डेटा श्रेणीबद्ध औसत-लिंकेज विधि द्वारा क्लस्टर किए गए थे, और 2-क्लस्टर समाधान के माध्यम से 15-क्लस्टर से सभी क्लस्टर समाधान (क्लस्टर सदस्यता) सहेजे गए थे। तब समाधानों की तुलना करने और "बेहतर" एक का चयन करने के लिए दो क्लस्टरिंग मानदंड लागू किए गए थे, यदि कोई हो।
कैलिन्सकी-हरबासज़ के लिए प्लॉट बाईं ओर है। हम देखते हैं कि - इस उदाहरण में - सीएच स्पष्ट रूप से 5-क्लस्टर समाधान (CLU5_1 लेबल) को सर्वश्रेष्ठ के रूप में इंगित करता है। एक और क्लस्टरिंग मानदंड के लिए प्लॉट, सी-इंडेक्स (जो एनोवा विचारधारा पर आधारित नहीं है और सीएच की तुलना में इसके आवेदन में अधिक सार्वभौमिक है) दाईं ओर है। सी-इंडेक्स के लिए, एक कम मूल्य "बेहतर" समाधान दर्शाता है। जैसा कि प्लॉट दिखाता है, 15-क्लस्टर समाधान औपचारिक रूप से सबसे अच्छा है। लेकिन याद रखें कि क्लस्टरिंग मानदंड के साथ बीहड़ स्थलाकृति स्वयं परिमाण की तुलना में निर्णय में अधिक महत्वपूर्ण है। ध्यान दें कि 5-क्लस्टर समाधान में कोहनी है; 5-क्लस्टर समाधान अभी भी अपेक्षाकृत अच्छा है, जबकि 4- या 3-क्लस्टर समाधान छलांग से बिगड़ते हैं। चूंकि हम आमतौर पर "कम समूहों के साथ एक बेहतर समाधान" प्राप्त करना चाहते हैं, इसलिए सी-इंडेक्स परीक्षण के तहत 5-क्लस्टर समाधान का विकल्प भी उचित प्रतीत होता है।
PS यह पोस्ट इस सवाल को भी उठाती है कि क्या हमें क्लस्टरिंग मानदंड के वास्तविक अधिकतम (या न्यूनतम) पर भरोसा करना चाहिए या इसके मूल्यों के प्लॉट के परिदृश्य पर।
1
आंतरिक क्लस्टरिंग मानदंडों का अवलोकन और उनका उपयोग कैसे करें ।