K- साधन क्लस्टर विश्लेषण के परिणामों का एक सुंदर भूखंड का उत्पादन कैसे करें?


77

मैं R का उपयोग कर रहा हूँ K- साधन क्लस्टरिंग। मैं K- साधन चलाने के लिए 14 चर का उपयोग कर रहा हूँ

  • K- साधनों के परिणामों की साजिश करने का एक सुंदर तरीका क्या है?
  • क्या कोई मौजूदा कार्यान्वयन हैं?
  • क्या 14 चर होने से परिणामों की साजिश रचने में कठिनाई होती है?

मुझे GGcluster नाम की कुछ चीज़ मिली जो देखने में ठंडी लगती है लेकिन यह अभी भी विकास में है। मैंने भी सैमन मैपिंग के बारे में कुछ पढ़ा, लेकिन इसे बहुत अच्छी तरह से नहीं समझा। क्या यह एक अच्छा विकल्प होगा?


1
यदि किसी कारण से आप इस बहुत ही व्यावहारिक समस्या के लिए वर्तमान समाधानों से चिंतित हैं, तो कृपया मौजूदा उत्तरों पर टिप्पणी जोड़ने या अधिक संदर्भ के साथ अपनी पोस्ट को अपडेट करने पर विचार करें। 40,000 मामलों के साथ काम करना यहां एक महत्वपूर्ण जानकारी है।
chl

11 वर्गों और 10 चरों के साथ एक और उदाहरण सांख्यिकीय लर्निंग के तत्वों के पृष्ठ 118 पर है ; बहुत जानकारीपूर्ण नहीं है।
Denis

पुस्तकालय (एनीमेशन) kmeans.ani (yourData, केंद्र = 2)
कार्तिक पाल्पू

जवाबों:


27

मैं इसके लिए सिल्हूट की साजिश को आगे बढ़ाता हूं, क्योंकि यह संभावना नहीं है कि आयाम की संख्या 14 होने पर आपको जोड़ी भूखंडों से बहुत अधिक उपयोगी जानकारी मिलेगी।

library(cluster)
library(HSAUR)
data(pottery)
km    <- kmeans(pottery,3)
dissE <- daisy(pottery) 
dE2   <- dissE^2
sk2   <- silhouette(km$cl, dE2)
plot(sk2)

यह दृष्टिकोण अत्यधिक उद्धृत और प्रसिद्ध है ( स्पष्टीकरण के लिए यहां देखें )।

रूसेवु, पीजे (1987) सिल्हूट्स: क्लस्टर विश्लेषण की व्याख्या और सत्यापन के लिए एक ग्राफिकल सहायताजे। कम्प्यूट। Appl। गणित। , 20 , 53-65।


मुझे यह पसंद हे। मैं इसमें आगे देखूंगा। धन्यवाद।
जेकीहुआ

@ user603: क्या आप अपने उत्तर में व्याख्या का सार देना चाहेंगे? आपने जो लिंक 2.5 साल पहले दिया था वह मृत हो गया है। लेख अभी भी है लेकिन इस तकनीक के लिए एक छोटा परिचय अच्छा होगा।
स्टीन

लिंक पेपर की ओर इशारा कर रहा था (यह एक बिना गेट वाला एक्सेस प्वाइंट था, जो वास्तव में अंधेरा हो गया है)।
user603

मुझे इस सिल्हूट के साथ एक अजीब भूखंड मिला (बाईं ओर क्लुसप्लॉट है और दाईं ओर सिल्हूट प्लॉट है, क्या यह अपेक्षित है?) - i.imgur.com/ZIpPlhT.png
vipin8163

56

यहाँ एक उदाहरण जो आपकी सहायता कर सकता है:

library(cluster)
library(fpc)

data(iris)
dat <- iris[, -5] # without known classification 
# Kmeans clustre analysis
clus <- kmeans(dat, centers=3)
# Fig 01
plotcluster(dat, clus$cluster)

# More complex
clusplot(dat, clus$cluster, color=TRUE, shade=TRUE, 
         labels=2, lines=0)

# Fig 03
with(iris, pairs(dat, col=c(1:3)[clus$cluster])) 

बाद वाले प्लॉट के आधार पर आप यह तय कर सकते हैं कि आपके शुरुआती वेरिएबल में से कौन सा प्लॉट करना है। हो सकता है कि 14 चर विशाल हों, इसलिए आप पहले एक प्रमुख घटक विश्लेषण (पीसीए) की कोशिश कर सकते हैं और फिर क्लस्टर विश्लेषण करने के लिए पीसीए से पहले दो या तीन घटकों का उपयोग कर सकते हैं।


1
मैं यह पता लगाने में असमर्थ हूं कि dc1 और dc2 को कैसे अलग किया जाए? क्या आप मुझे सही दिशा की ओर इशारा कर सकते हैं?
UD1989

1
@Upasana Datta: दो घटक डेटा पर सिद्धांत घटक विश्लेषण (पीसीए, फ़ंक्शन प्रिंट) को लागू करने का परिणाम हैं। वे इनपुट चर के रैखिक संयोजन हैं जो टिप्पणियों के अधिकांश परिवर्तनशीलता के लिए जिम्मेदार हैं।
राकेंसी

नमस्ते, मैं इस बारे में हैरान हूं कि दीर्घवृत्त की गणना दूसरे भूखंड में कैसे की जा रही है? यह "इन दो घटकों को 95.81% बिंदु परिवर्तनशीलता की व्याख्या कैसे करता है" यह निर्धारित करता है?
mynameisJEFF

@mynameisJEFF मुझे लगता है कि यह अव्यक्त / विहित चर, eignvalues, आदि का उपयोग कर रहा है। आप दस्तावेज़ की जाँच कर सकते हैं, लेकिन आमतौर पर इसका मतलब यह है कि जब आप एक द्विध्रुवीय को लेबल के रूप में देखते हैं। यह कह रहा है कि डेटा में भिन्नता का 95.81% 2 अव्यक्त चर द्वारा समझाया गया है जिस पर डेटा प्लॉट किया गया है। अपडेट - मैंने अभी इसे गोगल किया और वास्तव में, यह प्रमुख घटकों का उपयोग करता है।
हैक-आर

आपको यहां "के साथ" की आवश्यकता क्यों है? यह सिर्फ pairsसमारोह छोड़ने के लिए झुकाव होगा ।
अनातोली स्टेपानुक

4

सबसे सरल तरीका जो मुझे करना है, वह निम्नलिखित है:

X <- data.frame(c1=c(0,1,2,4,5,4,6,7),c2=c(0,1,2,3,3,4,5,5))
km <- kmeans(X, center=2)
plot(X,col=km$cluster)
points(km$center,col=1:2,pch=8,cex=1)

इस तरह आप प्रत्येक क्लस्टर के बिंदुओं को एक अलग रंग और उनके केन्द्रक का उपयोग करके आकर्षित कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.