K- साधन दूरी आधारित क्लस्टरिंग एल्गोरिथ्म नहीं है ।
K- साधन चौकों के असाइनमेंट की न्यूनतम राशि के लिए खोज करता है , अर्थात यह total_SS
क्लस्टर केंद्रों को अंक प्रदान करके अप्राकृतिक विचरण (= ) को कम करता है ।
K- साधनों को अभिसरण करने के लिए, आपको दो शर्तों की आवश्यकता है:
- फिर से अंक देने से वर्गों का योग कम हो जाता है
- माध्य को फिर से विभाजित करने से वर्गों का योग कम हो जाता है
जैसा कि केवल संयोजनों की सीमित संख्या है, आप असीम रूप से इस मूल्य को कम नहीं कर सकते हैं और एल्गोरिथ्म को किसी स्थानीय इष्टतम पर कुछ बिंदु पर परिवर्तित करना होगा ।
जब भी आप असाइनमेंट फ़ंक्शंस को बदलने का इरादा रखते हैं, तो आपको एल्गोरिथ्म को अब समाप्त नहीं करने का जोखिम है, जैसे कि अपनी पूंछ का पीछा करने वाला कुत्ता। अनिवार्य रूप से दोनों चरणों को उद्देश्य समारोह पर सहमत होना है। हम जानते हैं कि अंकगणित माध्य वर्गों के योग के संबंध में इष्टतम विकल्प है । और पहला कदम है, हम सिर्फ गणना कर सकते हैं के लिए प्रत्येक मतलब के लिए और चुनें जो भी कम है। तकनीकी रूप से, यहां कोई दूरी की गणना नहीं है । गणितीय रूप से, वर्गों के कम से कम योग को निर्दिष्ट करने से बचे हुए वर्ग के साथ काम करने के बराबर है यूक्लिडियन दूरी, जो (यदि आप कंप्यूटिंग के लिए सीपीयू चक्रों को बर्बाद करते हैं ) न्यूनतम यूक्लिडियन दूरी असाइनमेंट के बराबर है। तो अंतर्ज्ञान j∑i(xi−μji)2jsqrt
प्रत्येक बिंदु को निकटतम माध्य में निर्दिष्ट करना सही है, लेकिन अनुकूलन समस्या क्या नहीं करती है।
between_SS
संभवतः दो साधनों के बीच वर्गों का भारित योग है, यह मापने के लिए कि क्लस्टर केंद्रों को कितनी अच्छी तरह से अलग किया जाता है (नोट: क्लस्टर केंद्र, यह वास्तविक समूहों की तुलना नहीं करता है - तकनीकी रूप से, क्लस्टर वोरोनोई सेल पड़ोसी समूहों को छूता है वोरोनोई सेल)।
ध्यान दें कि k- साधनों के साथ आप k को बढ़ाकर भोली क्लस्टरिंग गुणवत्ता में सुधार कर सकते हैं। यहां मापी गई गुणवत्ता एक गणितीय मूल्य है, जो उपयोगकर्ताओं की आवश्यकताओं से मेल नहीं खा सकता है । आइरिस वास्तव में एक अच्छा उदाहरण है, जहां के-साधन अक्सर संतोषजनक परिणामों से कम में परिवर्तित होते हैं, यहां तक कि बाहरी जानकारी भी दी गई है कि वास्तव में 3 क्लस्टर होना चाहिए।
यदि आप k- साधनों की दूरी-आधारित भिन्नता चाहते हैं, तो k-medoids देखें । माध्य के साथ माध्य को प्रतिस्थापित करके अभिसरण सुनिश्चित किया जाता है:
- प्रत्येक ऑब्जेक्ट निकटतम क्लस्टर (एक मनमाना दूरी माप द्वारा) को सौंपा गया है
- क्लस्टर केंद्र को क्लस्टर के सबसे केंद्रीय ऑब्जेक्ट में अपडेट किया जाता है, अर्थात अन्य सभी के लिए सबसे छोटी औसत दूरी।
प्रत्येक चरण में, दूरी का योग कम हो जाता है; संयोजनों की एक सीमित संख्या है, इसलिए एल्गोरिथ्म को कुछ स्थानीय न्यूनतम पर समाप्त करना होगा।