के-मीन्स का लक्ष्य भीतर के क्लस्टर विचरण को कम करना है, और क्योंकि यह एक क्लस्टर के माध्य बिंदु के रूप में सेंट्रोइड्स की गणना करता है, इसे ठीक से परिवर्तित करने के लिए यूक्लिडियन दूरी का उपयोग करना आवश्यक है। इसलिए, यदि आप के-मीन्स का पूरी तरह से उपयोग करना चाहते हैं, तो आपको यह सुनिश्चित करने की आवश्यकता है कि आपका डेटा इसके साथ अच्छी तरह से काम करता है।
प्रतिनिधित्व
K- मीन्स, और सामान्य रूप में क्लस्टरिंग, डेटा को सार्थक समूहों में विभाजित करके यह सुनिश्चित करने की कोशिश करता है कि एक ही क्लस्टर में उदाहरण एक दूसरे के समान हैं। इसलिए, आपको अपने डेटा का प्रतिनिधित्व करने के लिए एक अच्छे तरीके की आवश्यकता है ताकि आप आसानी से एक सार्थक समानता उपाय की गणना कर सकें।
श्रेणीबद्ध चर पर एक-गर्म एन्कोडिंग का उपयोग करना एक अच्छा विचार है जब श्रेणियां एक-दूसरे से समान होती हैं। उदाहरण के लिए, यदि आपके पास रंग हल्का नीला, गहरा नीला और पीला है, तो एक-गर्म एन्कोडिंग का उपयोग आपको सर्वोत्तम परिणाम नहीं दे सकता है, क्योंकि गहरे नीले और हल्के नीले रंग पीले होने की तुलना में एक-दूसरे के "करीब" होने की संभावना है।
यदि श्रेणीगत मान "समतुल्य" नहीं है और आदेश दिया जा सकता है, तो आप श्रेणियों को एक संख्यात्मक मान भी दे सकते हैं। उदाहरण के लिए, बच्चा, किशोरी, वयस्क, संभवतः 0, 1 के रूप में प्रतिनिधित्व किया जा सकता है, और 2. इसका मतलब होगा क्योंकि एक किशोर एक वयस्क की तुलना में एक बच्चा होने के लिए "करीब" है।
कश्मीर Medoids
K-Means के लिए एक अधिक सामान्य दृष्टिकोण K-Medoids है। के-मेडॉइड के-मीन्स के समान काम करता है, लेकिन मुख्य अंतर यह है कि प्रत्येक क्लस्टर के लिए केन्द्रक को उस बिंदु के रूप में परिभाषित किया जाता है जो दूरी के भीतर-क्लस्टर योग को कम करता है। इसे लागू करने से आप अपने इच्छित किसी भी दूरी माप का उपयोग कर सकते हैं, और इसलिए, आप अपने स्वयं के कस्टम उपाय का निर्माण कर सकते हैं जो इस बात को ध्यान में रखेगा कि कौन सी श्रेणियां पास होनी चाहिए या नहीं।