आप कच्चे डेटा में अपनी मैट्रिक्स की दूरी को बदल सकते हैं और इन्हें K-Means क्लस्टरिंग में इनपुट कर सकते हैं। चरण इस प्रकार होंगे:
1) अपने एन बिंदुओं के बीच दूरियों को यूक्लिडियन स्क्वैयर होना चाहिए। मैट्रिक्स का " डबल सेंटरिंग" निष्पादित करें : प्रत्येक तत्व से पंक्तिबद्ध अर्थ; परिणाम में, प्रत्येक तत्व से स्तंभ घटाना; परिणाम में, प्रत्येक तत्व के लिए मैट्रिक्स जोड़ें; माइनस 2 से विभाजित करें। आपके पास अब जो मैट्रिक्स है वह आपके बिंदुओं के बीच SSCP (सम-वर्ग-और-क्रॉस-उत्पाद) मैट्रिक्स है जिसमें मूल को N बिंदुओं के बादल के ज्यामितीय केंद्र में रखा गया है। ( यहां डबल सेंटरिंग की व्याख्या पढ़ें ।)
2) उस मैट्रिक्स पर पीसीए (प्रमुख घटक विश्लेषण) करें और NxN घटक लोडिंग मैट्रिक्स प्राप्त करें । इसके अंतिम स्तंभों में से कुछ सभी 0 होने की संभावना है, - इसलिए उन्हें काट दें। अब आप जो साथ रहते हैं, वह वास्तव में प्रमुख घटक स्कोर होता है, आपके एन बिंदुओं के निर्देशांक मुख्य घटकों पर होते हैं जो आपके क्लाउड के माध्यम से कुल्हाड़ियों के रूप में गुजरते हैं। इस डेटा को K-Means इनपुट के लिए उपयुक्त कच्चे डेटा के रूप में माना जा सकता है।
PS यदि आपकी दूरियां ज्यामितीय रूप से सही नहीं हैं, तो यूक्लिडियन समस्या का सामना कर सकते हैं: SSCP मैट्रिक्स सकारात्मक (अर्ध) निश्चित नहीं हो सकता है। इस समस्या का कई तरीकों से सामना किया जा सकता है लेकिन सटीक नुकसान के साथ।