मुझे पता है कि k- साधन क्लस्टरिंग एल्गोरिथ्म और k- मध्यिका है। एक जो मध्य के रूप में माध्य का उपयोग करता है और दूसरा माध्यिका का उपयोग करता है। मेरा प्रश्न है: कब / कहां उपयोग करना है?
मुझे पता है कि k- साधन क्लस्टरिंग एल्गोरिथ्म और k- मध्यिका है। एक जो मध्य के रूप में माध्य का उपयोग करता है और दूसरा माध्यिका का उपयोग करता है। मेरा प्रश्न है: कब / कहां उपयोग करना है?
जवाबों:
k- साधन, क्लस्टर-संस्करण विचलन को कम करता है, जो कि यूक्लिडियन दूरी के बराबर होता है।
सामान्य तौर पर, अंकगणित माध्य ऐसा करता है। यह दूरी का अनुकूलन नहीं करता है , लेकिन इस बीच से विचलन को कम करता है।
k-medians पूर्ण विचलन को कम करता है, जो मैनहट्टन की दूरी के बराबर है।
सामान्य तौर पर, प्रति-अक्ष माध्यिका को ऐसा करना चाहिए। यह माध्य के लिए एक अच्छा अनुमानक है, यदि आप चुकता वाले लोगों के बजाय पूर्ण विचलन (यानी sum_i abs (x_i-y_i)) का योग कम से कम करना चाहते हैं।
यह सटीकता के बारे में सवाल नहीं है। यह शुद्धता का सवाल है। ;-)
तो यहाँ आपका निर्णय वृक्ष है:
कुछ अपवाद: जहाँ तक मैं बता सकता हूँ, एल 2-सामान्यीकृत डेटा पर स्क्वायड यूक्लिडियन दूरी को कम करने से संबंधित कोसाइन समानता को अधिकतम करना है। इसलिए यदि आपका डेटा L2 सामान्यीकृत है; और आप प्रत्येक पुनरावृत्ति के माध्यम से अपने साधनों को सामान्य करते हैं, तो आप फिर से के-साधनों का उपयोग कर सकते हैं।
यदि आप एक विश्लेषण करना चाहते हैं कि चरम मूल्यों के संभावित प्रभाव के बारे में k का उपयोग न करें, लेकिन यदि आप चाहते हैं कि माध्यिका का अधिक सटीक उपयोग हो