Calinski & Harabasz (CH) मानदंड का एक स्वीकार्य मूल्य क्या है?


25

मैंने एक डेटा विश्लेषण किया है जो आर और किमील पैकेज का उपयोग करके अनुदैर्ध्य डेटा को क्लस्टर करने की कोशिश कर रहा है । मेरे डेटा में लगभग 400 व्यक्तिगत प्रक्षेपवक्र शामिल हैं (जैसा कि इसे पेपर में कहा जाता है)। आप निम्न चित्र में मेरे परिणाम देख सकते हैं:

यहाँ छवि विवरण दर्ज करें

इसी पेपर में अध्याय 2.2 "एक इष्टतम संख्या में क्लस्टर चुनना" के बाद मुझे कोई जवाब नहीं मिला। मैं 3 क्लस्टर रखना पसंद करूंगा लेकिन परिणाम अभी भी 80 के सीएच के साथ ठीक है। वास्तव में मुझे यह भी पता नहीं है कि सीएच मूल्य क्या दर्शाता है।

तो मेरा प्रश्न, कैल्सिंस्की और हरबज़ (सीएच) मानदंड का एक स्वीकार्य मूल्य क्या है?


आपकी क्लस्टर-समाधान छवियां SPSS से हैं? SPSS में यह CH मानदंड गिनना संभव है? धन्यवाद! :) b
बेर्बेलिन

साइट पर आपका स्वागत है, @berbelein। यह ओपी के सवाल का जवाब नहीं है। कृपया उत्तर प्रदान करने के लिए केवल "आपका उत्तर" फ़ील्ड का उपयोग करें। यदि आपके पास अपना प्रश्न है [ASK QUESTION], तो वहां पूछें पर क्लिक करें , फिर हम आपकी उचित सहायता कर सकते हैं। चूंकि आप यहां नए हैं, इसलिए आप हमारे दौरे को लेना चाहते हैं , जिसमें नए उपयोगकर्ताओं के लिए जानकारी हो।
गुंग - को पुनः स्थापित मोनिका

@berbelein आर। से हैं
greg121

जवाबों:


40

कुछ चीजें हैं जिनके बारे में पता होना चाहिए।

  • सबसे आंतरिक क्लस्टरिंग मानदंड की तरह , कैलिंस्की-हरबास एक अनुमानी उपकरण है। इसका उपयोग करने का उचित तरीका समान डेटा पर प्राप्त क्लस्टरिंग समाधानों की तुलना करना है, - समाधान जो क्लस्टर की संख्या या उपयोग किए गए क्लस्टरिंग विधि द्वारा भिन्न होते हैं।

  • कोई "स्वीकार्य" कट-ऑफ मूल्य नहीं है। आप बस सीएच मान की तुलना आंख से करते हैं। उच्च मूल्य, "बेहतर" समाधान है। यदि सीएच मानों की लाइन-प्लॉट पर ऐसा प्रतीत होता है कि एक समाधान एक चोटी या कम से कम अचानक कोहनी देता है, तो इसे चुनें। यदि, इसके विपरीत, रेखा चिकनी है - क्षैतिज या आरोही या अवरोही - तो दूसरों के लिए एक समाधान पसंद करने का कोई कारण नहीं है।

  • CH मानदंड एनोवा विचारधारा पर आधारित है। इसलिए, इसका तात्पर्य यह है कि क्लस्टर की गई वस्तुएं यूक्लिडियन स्केल ऑफ स्केल (न कि ऑर्डिनल या बाइनरी या नॉमिनल) वेरिएबल्स में होती हैं। यदि डेटा क्लस्टर एक्स ऑब्जेक्ट्स नहीं थे, लेकिन ऑब्जेक्ट्स के बीच असमानताओं का एक मैट्रिक्स है, तो डिसिमिलरिटी उपाय (स्क्वेरड) यूक्लिडियन दूरी (या, इससे भी बदतर, गुणों के द्वारा यूक्लिडिड दूरी के निकट आने वाली अन्य मीट्रिक दूरी) होना चाहिए।

  • 1

आइए एक उदाहरण देखें। नीचे डेटा का एक प्रकार है जो 5 सामान्य रूप से वितरित समूहों के रूप में उत्पन्न हुआ था जो एक दूसरे के काफी करीब हैं।

यहाँ छवि विवरण दर्ज करें

ये डेटा श्रेणीबद्ध औसत-लिंकेज विधि द्वारा क्लस्टर किए गए थे, और 2-क्लस्टर समाधान के माध्यम से 15-क्लस्टर से सभी क्लस्टर समाधान (क्लस्टर सदस्यता) सहेजे गए थे। तब समाधानों की तुलना करने और "बेहतर" एक का चयन करने के लिए दो क्लस्टरिंग मानदंड लागू किए गए थे, यदि कोई हो।

यहाँ छवि विवरण दर्ज करें

कैलिन्सकी-हरबासज़ के लिए प्लॉट बाईं ओर है। हम देखते हैं कि - इस उदाहरण में - सीएच स्पष्ट रूप से 5-क्लस्टर समाधान (CLU5_1 लेबल) को सर्वश्रेष्ठ के रूप में इंगित करता है। एक और क्लस्टरिंग मानदंड के लिए प्लॉट, सी-इंडेक्स (जो एनोवा विचारधारा पर आधारित नहीं है और सीएच की तुलना में इसके आवेदन में अधिक सार्वभौमिक है) दाईं ओर है। सी-इंडेक्स के लिए, एक कम मूल्य "बेहतर" समाधान दर्शाता है। जैसा कि प्लॉट दिखाता है, 15-क्लस्टर समाधान औपचारिक रूप से सबसे अच्छा है। लेकिन याद रखें कि क्लस्टरिंग मानदंड के साथ बीहड़ स्थलाकृति स्वयं परिमाण की तुलना में निर्णय में अधिक महत्वपूर्ण है। ध्यान दें कि 5-क्लस्टर समाधान में कोहनी है; 5-क्लस्टर समाधान अभी भी अपेक्षाकृत अच्छा है, जबकि 4- या 3-क्लस्टर समाधान छलांग से बिगड़ते हैं। चूंकि हम आमतौर पर "कम समूहों के साथ एक बेहतर समाधान" प्राप्त करना चाहते हैं, इसलिए सी-इंडेक्स परीक्षण के तहत 5-क्लस्टर समाधान का विकल्प भी उचित प्रतीत होता है।

PS यह पोस्ट इस सवाल को भी उठाती है कि क्या हमें क्लस्टरिंग मानदंड के वास्तविक अधिकतम (या न्यूनतम) पर भरोसा करना चाहिए या इसके मूल्यों के प्लॉट के परिदृश्य पर।


1

आंतरिक क्लस्टरिंग मानदंडों का अवलोकन और उनका उपयोग कैसे करें


एक पाठक प्रश्न आँकड़े देखना चाह सकता है ।stackexchange.com/q/242360/3277 भी।
ttnphns

मैंने SPSS के लिए कई सबसे लोकप्रिय क्लस्टरिंग सत्यापन मानदंड लागू किए हैं, - कृपया मेरे वेब पेज पर जाएँ, "क्लस्टरिंग मानदंड" संग्रह।
बजे
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.