k- का मतलब बनाम k-median?


14

मुझे पता है कि k- साधन क्लस्टरिंग एल्गोरिथ्म और k- मध्यिका है। एक जो मध्य के रूप में माध्य का उपयोग करता है और दूसरा माध्यिका का उपयोग करता है। मेरा प्रश्न है: कब / कहां उपयोग करना है?


यदि आपके पास एक से अधिक आयाम हैं, तो आपको मध्यस्थों को परिभाषित करना होगा (और शायद उनकी गणना करना होगा); यदि आप बस प्रत्येक मूल्य में माध्य लेते हैं तो आप घूर्णी गुण खो देते हैं। एक और संभावना k -medoids है
हेनरी

जवाबों:


14

k- साधन, क्लस्टर-संस्करण विचलन को कम करता है, जो कि यूक्लिडियन दूरी के बराबर होता है।

सामान्य तौर पर, अंकगणित माध्य ऐसा करता है। यह दूरी का अनुकूलन नहीं करता है , लेकिन इस बीच से विचलन को कम करता है।

k-medians पूर्ण विचलन को कम करता है, जो मैनहट्टन की दूरी के बराबर है।

सामान्य तौर पर, प्रति-अक्ष माध्यिका को ऐसा करना चाहिए। यह माध्य के लिए एक अच्छा अनुमानक है, यदि आप चुकता वाले लोगों के बजाय पूर्ण विचलन (यानी sum_i abs (x_i-y_i)) का योग कम से कम करना चाहते हैं।

यह सटीकता के बारे में सवाल नहीं है। यह शुद्धता का सवाल है। ;-)

तो यहाँ आपका निर्णय वृक्ष है:

  • यदि आपकी दूरी यूक्लिडियन दूरी है , तो k- साधनों का उपयोग करें
  • यदि आपकी दूरी टेक्सीकैब मेट्रिक है , तो k-medians का उपयोग करें
  • यदि आपके पास कोई अन्य दूरी है , तो k-medoids का उपयोग करें

कुछ अपवाद: जहाँ तक मैं बता सकता हूँ, एल 2-सामान्यीकृत डेटा पर स्क्वायड यूक्लिडियन दूरी को कम करने से संबंधित कोसाइन समानता को अधिकतम करना है। इसलिए यदि आपका डेटा L2 सामान्यीकृत है; और आप प्रत्येक पुनरावृत्ति के माध्यम से अपने साधनों को सामान्य करते हैं, तो आप फिर से के-साधनों का उपयोग कर सकते हैं।


मैं कुछ हद तक इस मुद्दे पर ध्यान देता हूं कि मंझला मैनहट्टन की दूरी को कम करता है, क्योंकि बहुआयामी डेटा के लिए माध्य की अवधारणा पर कोई अद्वितीय सहमति नहीं है। यह गलत नहीं है, लेकिन मुझे यह बहुआयामी संदर्भ में एक भ्रामक बयान लगता है। मध्ययुगीन लोगों के कई बहुआयामी सामान्यीकरण हैं, जिनमें से कई में मैनहट्टन की दूरी को कम करने का कोई संबंध नहीं है।
टिम सेग्यूनी

1
मैं इसे प्रति-अक्ष माध्य में बदलता हूं। मुझे उम्मीद है कि अब आप खुश हैं।
है क्विट - Anony-Mousse

2

यदि आप एक विश्लेषण करना चाहते हैं कि चरम मूल्यों के संभावित प्रभाव के बारे में k का उपयोग न करें, लेकिन यदि आप चाहते हैं कि माध्यिका का अधिक सटीक उपयोग हो


5
क्या आप किसी भी तरह से इन दावों का समर्थन और / या व्याख्या कर सकते हैं?
जॉना

हाँ, क्या आप अधिक विस्तार से बता सकते हैं? उदाहरणों के साथ
जैक ट्वेन

2
मुझे लगता है कि ऐसा इसलिए है क्योंकि "मेडियन" आउटलेर्स को बर्दाश्त कर सकता है लेकिन "मीन" उनसे पूरी तरह प्रभावित होता है। उदाहरण के लिए: यदि हमारे पास डेटा बिंदु {1,2,3,5,78} है, तो इसका स्पष्ट अर्थ है कि 78 एकमुश्त है। इन आंकड़ों का माध्य 3 है और माध्य 17.8 है। तो माध्य इन आंकड़ों को संक्षेप में प्रस्तुत करने का सबसे अच्छा तरीका है।
फदवा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.