मैं समूहों में डेटा वर्गीकृत करने के साथ प्रयोग कर रहा हूं। मैं इस विषय पर काफी नया हूं, और कुछ विश्लेषणों के उत्पादन को समझने की कोशिश कर रहा हूं।
क्विक-आर के उदाहरणों का उपयोग करते हुए , कई R
पैकेज सुझाए गए हैं। मैंने इनमें से दो पैकेज ( फ़ंक्शन fpc
का उपयोग करके kmeans
, और mclust
) का उपयोग करने की कोशिश की है । इस विश्लेषण का एक पहलू जो मुझे समझ में नहीं आता है वह है परिणामों की तुलना।
# comparing 2 cluster solutions
library(fpc)
cluster.stats(d, fit1$cluster, fit2$cluster)
मैंने fpc
मैनुअल के प्रासंगिक भागों के माध्यम से पढ़ा है और अभी भी इस बारे में स्पष्ट नहीं हूं कि मुझे क्या लक्ष्य बनाना चाहिए। उदाहरण के लिए, यह दो अलग-अलग क्लस्टरिंग दृष्टिकोणों की तुलना करने का आउटपुट है:
$n
[1] 521
$cluster.number
[1] 4
$cluster.size
[1] 250 119 78 74
$diameter
[1] 5.278162 9.773658 16.460074 7.328020
$average.distance
[1] 1.632656 2.106422 3.461598 2.622574
$median.distance
[1] 1.562625 1.788113 2.763217 2.463826
$separation
[1] 0.2797048 0.3754188 0.2797048 0.3557264
$average.toother
[1] 3.442575 3.929158 4.068230 4.425910
$separation.matrix
[,1] [,2] [,3] [,4]
[1,] 0.0000000 0.3754188 0.2797048 0.3557264
[2,] 0.3754188 0.0000000 0.6299734 2.9020383
[3,] 0.2797048 0.6299734 0.0000000 0.6803704
[4,] 0.3557264 2.9020383 0.6803704 0.0000000
$average.between
[1] 3.865142
$average.within
[1] 1.894740
$n.between
[1] 91610
$n.within
[1] 43850
$within.cluster.ss
[1] 1785.935
$clus.avg.silwidths
1 2 3 4
0.42072895 0.31672350 0.01810699 0.23728253
$avg.silwidth
[1] 0.3106403
$g2
NULL
$g3
NULL
$pearsongamma
[1] 0.4869491
$dunn
[1] 0.01699292
$entropy
[1] 1.251134
$wb.ratio
[1] 0.4902123
$ch
[1] 178.9074
$corrected.rand
[1] 0.2046704
$vi
[1] 1.56189
यहाँ मेरा प्राथमिक प्रश्न यह समझना बेहतर है कि इस क्लस्टर तुलना के परिणामों की व्याख्या कैसे करें।
पहले, मैंने स्केलिंग डेटा के प्रभाव, और दूरी मैट्रिक्स की गणना के बारे में अधिक पूछा था। हालाँकि, यह स्पष्ट रूप से mariana soffer द्वारा उत्तर दिया गया था, और मैं अपने प्रश्न को केवल इस बात पर जोर देने के लिए पुनर्गठित कर रहा हूं कि मैं अपने आउटपुट की व्याख्या में दिलचस्पी रखता हूं जो दो अलग-अलग क्लस्टरिंग एल्गोरिदम की तुलना है।
प्रश्न का पिछला भाग : यदि मैं किसी भी प्रकार की क्लस्टरिंग कर रहा हूं, तो क्या मुझे हमेशा डेटा स्केल करना चाहिए? उदाहरण के लिए, मैं फ़ंक्शन के dist()
इनपुट के रूप में अपने स्केल किए गए डेटासेट पर फ़ंक्शन का उपयोग कर रहा हूं cluster.stats()
, हालांकि मैं पूरी तरह से नहीं समझता कि क्या चल रहा है। मैं dist()
यहाँ के बारे में पढ़ता हूँ और यह बताता है कि:
यह फ़ंक्शन डेटा मैट्रिक्स की पंक्तियों के बीच की दूरी की गणना करने के लिए निर्दिष्ट दूरी माप का उपयोग करके गणना की गई मैट्रिक्स की गणना करता है और वापस करता है।