एक पदानुक्रमित क्लस्टर विश्लेषण के डेंड्रोग्राम की व्याख्या कैसे करें


25

नीचे R उदाहरण पर विचार करें:

plot( hclust(dist(USArrests), "ave") )
  1. वास्तव में y- अक्ष "ऊंचाई" का क्या अर्थ है?

  2. नॉर्थ कैरोलिना और कैलिफोर्निया (बल्कि बाईं ओर) को देखते हुए। एरिज़ोना की तुलना में कैलिफ़ोर्निया उत्तरी कैरोलिना के "करीब" है? क्या मैं इसकी व्याख्या कर सकता हूं?

  3. हवाई (दाएं) देरी से क्लस्टर में शामिल होता है। मैं इसे देख सकता हूं क्योंकि यह अन्य राज्यों की तुलना में "उच्च" है। सामान्य तौर पर मैं इस तथ्य की व्याख्या कैसे कर सकता हूं कि डेंड्रोग्राम में लेबल "उच्च" या "कम" हैं?

यहाँ छवि विवरण दर्ज करें


1
में उत्तर देता है ?hclust
Scortchi - को पुनः स्थापित मोनिका

3
लेबल की स्थिति का कोई अर्थ नहीं है। यदि आप y- अक्ष को नहीं समझते हैं, तो यह अजीब है कि आप अच्छी तरह से पदानुक्रमिक क्लस्टरिंग को समझने के लिए प्रभावित हैं।
स्टीफन लॉरेंट

1
कृपया यह भी ध्यान रखें कि पदानुक्रमित क्लस्टरिंग आमतौर पर आपको श्रेणीबद्ध (वृक्ष) वर्गीकरण नहीं देता है । औसत विधि (जो आपने उपयोग की थी) विशेष रूप से नहीं। अंतिम बिंदु देखें यहाँ
ttnphns 12

1
एक लेबल की स्थिति का हालांकि थोड़ा अर्थ है। उच्च स्थिति बाद में ऑब्जेक्ट को दूसरों के साथ जोड़ता है, और इसलिए यह अधिक पसंद है कि यह एक बाहरी या एक भटका हुआ है।
ttnphns

3
@ StéphaneLaurent आप सही हैं कि यह आवाज़ एक विरोधाभास की तरह है। वहाँ पर मुझे अभी भी लगता है कि मैं डेटा के एक dendogram को सक्षम करने में सक्षम हूं जिसे मैं अच्छी तरह से जानता हूं। इसके अलावा तालिकाओं की स्थिति का थोड़ा अर्थ है कि ttnphns और पीटर फ्लॉम इंगित करते हैं। अंत में आपकी टिप्पणी मेरे लिए रचनात्मक नहीं थी।
रिक

जवाबों:


17

1) y- अक्ष या तो व्यक्तिगत डेटा बिंदुओं या समूहों की निकटता का माप है।

2) कैलिफ़ोर्निया और एरिज़ोना फ्लोरिडा से समान रूप से दूर हैं क्योंकि CA और AZ एक समूह में हैं, इससे पहले कि FL में शामिल हो।

3) हवाई बल्कि देर से शामिल होता है; लगभग 50. इसका मतलब है कि यह जो क्लस्टर जुड़ता है वह HI जॉइन करने से पहले एक साथ करीब होता है। लेकिन ज्यादा करीब नहीं। ध्यान दें कि यह क्लस्टर से जुड़ता है (दाईं ओर एक रास्ता) केवल लगभग 45 पर बनता है। तथ्य यह है कि HI किसी भी अन्य राज्य की तुलना में बाद में क्लस्टर में शामिल होता है, इसका मतलब यह है कि (जो भी मीट्रिक आपके द्वारा चुना गया है) HI उसके करीब नहीं है कोई विशेष राज्य।


इस प्रकार "ऊंचाई" मुझे लिंक मानदंड के मूल्य का एक विचार देता है (जैसा कि यहां ) - मेरे मामले में एक दूसरे के लिए समूहों की औसत दूरी। क्या यह सही है? धन्यवाद!
रिक

नहीं y- अक्ष का एक उपाय है जिले समूहों और अंक के बीच समानता? यानी नकारात्मकता की घनिष्ठता, क्योंकि यह सबसे बड़ा है जब चीजें सबसे अधिक भिन्न होती हैं, न कि @PeterFlom
Felipe Almeida

21

जब मुझे पदानुक्रमिक क्लस्टरिंग सीखने की कोशिश की गई तो मेरे पास एक ही सवाल था और मुझे निम्नलिखित पीडीएफ़ बहुत उपयोगी लगे।

http://www.econ.upf.edu/~michael/stanford/maeb7.pdf

भले ही रिचर्ड प्रक्रिया के बारे में पहले से ही स्पष्ट है, जो अन्य लोग सवाल के माध्यम से ब्राउज़ करते हैं, वे शायद पीडीएफ का उपयोग कर सकते हैं, उन लोगों के लिए बहुत ही सरल और स्पष्ट जासूसी है जिनके पास पर्याप्त गणित पृष्ठभूमि नहीं है।


3
बस फिर से पुन: चलना चाहते हैं कि लिंक की गई पीडीएफ बहुत अच्छी है।
हेइज़ेनबर्ग

संदर्भ: क्लीमबर्ग, रोनाल्ड के। और बीडी मैकुलॉ। 2013. "अध्याय 7: पदानुक्रमित क्लस्टर विश्लेषण।" JMP के साथ भविष्य कहनेवाला विश्लेषण के बुनियादी बातों में। कैरी, एनसी: एसएएस इंस्टीट्यूट।
jay.sf

1

क्षैतिज अक्ष समूहों का प्रतिनिधित्व करता है। डेंड्रोग्राम पर लंबवत पैमाने दूरी या असमानता का प्रतिनिधित्व करते हैं। दो समूहों के प्रत्येक जुड़ाव (संलयन) को एक ऊर्ध्वाधर रेखा के दो ऊर्ध्वाधर रेखाओं में विभाजित करके आरेख पर दर्शाया गया है। विभाजन की ऊर्ध्वाधर स्थिति, एक छोटी पट्टी द्वारा दिखाई जाती है, दो समूहों के बीच की दूरी (असमानता) देती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.