R में क्लस्टरिंग के k- साधनों के परिणाम की व्याख्या करना


12

मैं kmeansएंडरसन के आईरिस डाटासेट पर k- साधन एल्गोरिथ्म प्रदर्शन के लिए R के निर्देश का उपयोग कर रहा था । मेरे पास कुछ मापदंडों के बारे में एक प्रश्न है जो मुझे मिला। परिणाम हैं:

Cluster means:
  Sepal.Length Sepal.Width Petal.Length Petal.Width
1     5.006000    3.428000     1.462000    0.246000

इस मामले में, "क्लस्टर का मतलब" क्या है? यह क्लस्टर के भीतर सभी वस्तुओं की दूरी का मतलब है?

मेरे पास पिछले भाग में भी:

Within cluster sum of squares by cluster:
[1] 15.15100 39.82097 23.87947
 (between_SS / total_SS =  88.4 %)

88.4% का वह मूल्य, इसकी व्याख्या क्या हो सकती है?


4
कृपया पोस्ट को पार करें ! stackoverflow.com/q/14524818/429846
गेविन सिम्पसन

नहीं, यह पहले क्लस्टर के अंदर सभी वस्तुओं का मतलब है (कुल में 3)। आप iris.km $ betweenss / iris.km $ totss द्वारा 88.4% प्राप्त कर सकते हैं
dfhgfh

K- साधनों पर कोई लेख पढ़ें । तब यह स्पष्ट होना चाहिए कि clsuter का मतलब क्या है ... K- साधन दूरी आधारित नहीं है । यह variances aka को कम करता है: "चुकता विचलन का योग"।
QUIT - एनी-मूस

मान लें कि आपका मतलब 0. गणित है। अगर ऊपर की धारणा से फर्क पड़ता है तो जाँच करें। उसके बाद खुशी से जियो। फायदा!
मिया

जवाबों:


24

यदि आप वैश्विक नमूना माध्य के लिए प्रत्येक डेटा बिंदु के वर्ग दूरी की गणना करते हैं, तो आप प्राप्त करते हैं total_SS। अगर, एक वैश्विक नमूना माध्य (या 'सेंट्रोइड') की गणना करने के बजाय, आप प्रति समूह (यहां, तीन समूह हैं) प्रति गणना करते हैं और फिर इन तीन साधनों के वर्ग दूरी के योग की गणना करते हैं, जो आपको मिलता है between_SS। (यह गणना करते समय, आप वैश्विक माध्य से प्रत्येक माध्य बिंदु की संख्या को उस बिंदुओं की संख्या से गुणा करते हैं, जो इसमें शामिल है।

यदि क्लस्टरिंग का कोई समझदार पैटर्न नहीं था, तो तीन समूहों के तीन साधन वैश्विक अर्थ के करीब between_SSहोंगे , और बहुत कम अंश होंगे total_SS। इसके विपरीत यहाँ सच है, जो दर्शाता है कि प्रजातियों के अनुसार डेटा चार आयामी अंतरिक्ष में काफी करीने से क्लस्टर करता है।


14

K- साधन दूरी आधारित क्लस्टरिंग एल्गोरिथ्म नहीं है

K- साधन चौकों के असाइनमेंट की न्यूनतम राशि के लिए खोज करता है , अर्थात यह total_SSक्लस्टर केंद्रों को अंक प्रदान करके अप्राकृतिक विचरण (= ) को कम करता है ।

K- साधनों को अभिसरण करने के लिए, आपको दो शर्तों की आवश्यकता है:

  • फिर से अंक देने से वर्गों का योग कम हो जाता है
  • माध्य को फिर से विभाजित करने से वर्गों का योग कम हो जाता है

जैसा कि केवल संयोजनों की सीमित संख्या है, आप असीम रूप से इस मूल्य को कम नहीं कर सकते हैं और एल्गोरिथ्म को किसी स्थानीय इष्टतम पर कुछ बिंदु पर परिवर्तित करना होगा ।

जब भी आप असाइनमेंट फ़ंक्शंस को बदलने का इरादा रखते हैं, तो आपको एल्गोरिथ्म को अब समाप्त नहीं करने का जोखिम है, जैसे कि अपनी पूंछ का पीछा करने वाला कुत्ता। अनिवार्य रूप से दोनों चरणों को उद्देश्य समारोह पर सहमत होना है। हम जानते हैं कि अंकगणित माध्य वर्गों के योग के संबंध में इष्टतम विकल्प है । और पहला कदम है, हम सिर्फ गणना कर सकते हैं के लिए प्रत्येक मतलब के लिए और चुनें जो भी कम है। तकनीकी रूप से, यहां कोई दूरी की गणना नहीं है । गणितीय रूप से, वर्गों के कम से कम योग को निर्दिष्ट करने से बचे हुए वर्ग के साथ काम करने के बराबर है यूक्लिडियन दूरी, जो (यदि आप कंप्यूटिंग के लिए सीपीयू चक्रों को बर्बाद करते हैं ) न्यूनतम यूक्लिडियन दूरी असाइनमेंट के बराबर है। तो अंतर्ज्ञान ji(xiμji)2jsqrt प्रत्येक बिंदु को निकटतम माध्य में निर्दिष्ट करना सही है, लेकिन अनुकूलन समस्या क्या नहीं करती है।

between_SS संभवतः दो साधनों के बीच वर्गों का भारित योग है, यह मापने के लिए कि क्लस्टर केंद्रों को कितनी अच्छी तरह से अलग किया जाता है (नोट: क्लस्टर केंद्र, यह वास्तविक समूहों की तुलना नहीं करता है - तकनीकी रूप से, क्लस्टर वोरोनोई सेल पड़ोसी समूहों को छूता है वोरोनोई सेल)।

ध्यान दें कि k- साधनों के साथ आप k को बढ़ाकर भोली क्लस्टरिंग गुणवत्ता में सुधार कर सकते हैं। यहां मापी गई गुणवत्ता एक गणितीय मूल्य है, जो उपयोगकर्ताओं की आवश्यकताओं से मेल नहीं खा सकता है । आइरिस वास्तव में एक अच्छा उदाहरण है, जहां के-साधन अक्सर संतोषजनक परिणामों से कम में परिवर्तित होते हैं, यहां तक ​​कि बाहरी जानकारी भी दी गई है कि वास्तव में 3 क्लस्टर होना चाहिए।

यदि आप k- साधनों की दूरी-आधारित भिन्नता चाहते हैं, तो k-medoids देखें । माध्य के साथ माध्य को प्रतिस्थापित करके अभिसरण सुनिश्चित किया जाता है:

  • प्रत्येक ऑब्जेक्ट निकटतम क्लस्टर (एक मनमाना दूरी माप द्वारा) को सौंपा गया है
  • क्लस्टर केंद्र को क्लस्टर के सबसे केंद्रीय ऑब्जेक्ट में अपडेट किया जाता है, अर्थात अन्य सभी के लिए सबसे छोटी औसत दूरी।

प्रत्येक चरण में, दूरी का योग कम हो जाता है; संयोजनों की एक सीमित संख्या है, इसलिए एल्गोरिथ्म को कुछ स्थानीय न्यूनतम पर समाप्त करना होगा।


दिलचस्प बिंदु +1
Cam.Davidson.Pilon

1
यहां (किमी में) कोई दूरी की गणना क्यों नहीं है? भिन्नता की गणना करने के लिए प्रत्येक तत्व की दूरी की गणना करना आवश्यक है, इसलिए स्पष्ट रूप से दूरी गणना शामिल है, है ना?
फंकवेकर

भिन्नता को आमतौर पर दूरी के संदर्भ में परिभाषित नहीं किया जाता है, लेकिन "माध्य से चुकता विचलन का अपेक्षित मूल्य" के रूप में।
QUIT -
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.