यदि आप बेतरतीब ढंग से नमूने को 5 उप-भागों में विभाजित करते हैं, तो आपके 5 साधन लगभग मेल खाएंगे। प्रारंभिक क्लस्टर केंद्रों को इस तरह के करीब बनाने की भावना क्या है?
कई K- साधनों के कार्यान्वयन में, प्रारंभिक क्लस्टर केंद्रों का डिफ़ॉल्ट चयन विपरीत विचार पर आधारित है: उन 5 बिंदुओं को खोजने के लिए जो सबसे दूर हैं और उन्हें प्रारंभिक केंद्र बनाते हैं। आप पूछ सकते हैं कि उन अलग बिंदुओं को खोजने का तरीका क्या हो सकता है? यहाँ है कि SPSS 'K- साधन उसके लिए क्या कर रहा है:
प्रारंभिक केंद्रों के रूप में डेटासेट के किसी भी के मामले (अंक) लें । सभी शेष मामलों की जाँच निम्न स्थितियों द्वारा प्रारंभिक केंद्र के रूप में करने की क्षमता के लिए की जा रही है:
- क) यदि मामला केंद्र से सबसे दूर है, तो यह दो अन्य केंद्रों के सबसे करीब के बीच की दूरी की तुलना में है, तो मामला बाद वाले दो के केंद्र को प्रतिस्थापित करता है, जिसके करीब है।
- ख) यदि मामला केंद्र से सबसे दूर है, तो केंद्र के निकटतम दूरी की तुलना में इसके निकटतम केंद्र और इस उत्तरार्द्ध के निकटतम केंद्र के बीच का मामला केंद्र के सबसे निकट होता है।
यदि शर्त (ए) संतुष्ट नहीं है, तो स्थिति (बी) की जाँच की जाती है; यदि यह संतुष्ट नहीं है तो मामला केंद्र नहीं बनता है। मामलों के माध्यम से इस तरह के रन के परिणाम के रूप में हम प्राप्त k बादल में अत्यंत मामलों प्रारंभिक केंद्र बन। इस अहंकार का परिणाम, हालांकि पर्याप्त रूप से मजबूत है, "किसी भी के मामलों" की शुरुआती पसंद और डेटासेट में मामलों के क्रम के लिए पूरी तरह से असंवेदनशील नहीं है ; इसलिए, कई यादृच्छिक शुरुआती प्रयास अभी भी स्वागत योग्य हैं, क्योंकि यह हमेशा K- साधनों के मामले में होता है।
K- साधनों के लिए लोकप्रिय प्रारंभिक तरीकों की सूची के साथ मेरा उत्तर देखें । यादृच्छिक उपसमूहों में विभाजन की विधि (मेरे और अन्य लोगों द्वारा यहां पर टीकाकरण) और साथ ही एसपीएसएस द्वारा वर्णित विधि - सूची में भी हैं।