K- साधन समूहों के वर्ग लेबल असाइन करना


10

क्लस्टरिंग पर मेरा बहुत बुनियादी सवाल है। जब मैंने उनके समूहों के साथ k समूहों को पाया है, तो मैं उन डेटा बिंदुओं की कक्षाओं की व्याख्या करने के बारे में कैसे पता लगाऊं जिन्हें मैंने क्लस्टर किया है (प्रत्येक क्लस्टर में सार्थक वर्ग लेबल असाइन करना)। मैं पाए गए समूहों के सत्यापन के बारे में बात नहीं कर रहा हूं।

क्या यह डेटा पॉइंट्स का एक छोटा लेबल सेट दिया जा सकता है, यह गणना करें कि ये लेबल पॉइंट्स किस क्लस्टर से संबंधित हैं और प्रत्येक क्लस्टर द्वारा प्राप्त अंकों के प्रकार और संख्या के आधार पर लेबल तय करते हैं? यह बहुत स्पष्ट लगता है, लेकिन मुझे नहीं पता कि इस तरह से क्लस्टर को लेबल असाइन करने के लिए यह कितना मानक है।

स्पष्ट होने के लिए, मैं ऐसी अव्यवस्थित क्लस्टरिंग करना चाहता हूं जो मेरे क्लस्टर को खोजने के लिए किसी भी लेबल का उपयोग नहीं करता है। फिर गुच्छों को ढूंढते हुए, मैं कुछ उदाहरण डेटापॉइंट्स के गुणों के आधार पर समूहों को सार्थक वर्ग लेबल असाइन करना चाहता हूं।


मुझे आपके प्रश्न को समझना निश्चित नहीं है: आमतौर पर, किसी भी k- साधन एल्गोरिथ्म को प्रत्येक डेटा बिंदु के लिए वर्ग सदस्यता पर जानकारी वापस करनी चाहिए। क्या आप वास्तविक डेटा बिंदुओं या नई टिप्पणियों के बारे में बात कर रहे हैं?
CHL

@chi मुझे संदेह है कि रियाज़ उन नामों को खोजने के बारे में है जिनके साथ समूहों को लेबल करना है और कुछ प्राथमिकताओं के नामकरण के बारे में बात कर रहा है और फिर कुछ एल्गोरिथ्म का उपयोग कर रहा है जो उन समूहों में नामांकित बिंदुओं के पूर्ववर्तीकरण पर विचार करता है।
Glen_b -Reinstate मोनिका

2
@ रियाज, क्या हम आपके प्रश्न को समझने के लिए निम्नलिखित विश्लेषण को फैक्टर एनालिसिस में उपयोग कर सकते हैं? अक्सर कोई उन्हें चर के समूहों में समूहित करने के लिए चर के एक समूह का विश्लेषण करेगा, जो 'एक साथ लटका' प्रतीत होता है, लेकिन तब विश्लेषक को चर की प्रकृति के बारे में सोचने की ज़रूरत होती है जो प्रत्येक क्लस्टर को w / a के नाम के लिए बनाते हैं। / क्या प्रत्येक समूह (कारक) के बारे में सोचने का तरीका है । क्या यह अनिवार्य है कि आप यहाँ क्या कर रहे हैं?
गूँज - मोनिका

जवाबों:


4

हाँ। आप जो प्रस्ताव देते हैं वह पूरी तरह से मानक है और यह तरीका है कि मानक k- साधन सॉफ़्टवेयर स्वचालित रूप से काम करता है। K- साधनों के मामले में आप प्रत्येक अवलोकन (डेटा बिंदु) और प्रत्येक क्लस्टर माध्य (केन्द्रक) के बीच यूक्लिडियन दूरी की गणना करते हैं और टिप्पणियों को सबसे समान क्लस्टर में निर्दिष्ट करते हैं। फिर, क्लस्टर का लेबल अन्य समूहों के सापेक्ष उन क्लस्टर के सापेक्ष वर्गीकृत टिप्पणियों की औसत विशेषताओं का परीक्षण करके निर्धारित किया जाता है।


3

यदि आप अपनी kmeans ऑब्जेक्ट में नाम देखते हैं, तो आप देखेंगे कि "क्लस्टर" ऑब्जेक्ट है। इसमें आपके इनपुट डेटा के समान श्रेणी के लेबल का आदेश दिया गया है। यहां एक सरल उदाहरण है जो क्लस्टर लेबल को आपके डेटा पर वापस बांधता है।

x <- data.frame(X=rnorm(100, sd=0.3), Y=rnorm(100, mean=1, sd=0.3))

k <- kmeans(x, 2) 
names(k)
x <- data.frame(x, K=k$cluster)

# You can also directly return the clusters
x <- data.frame(x, K=kmeans(x, 2)$cluster)

0

क्लस्टर के लिए लेबल क्लस्टर के भीतर बहुमत के नमूने के वर्ग पर आधारित हो सकते हैं। लेकिन यह तभी सही है जब समूहों की संख्या वर्गों की संख्या के बराबर हो।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.