किसी भी चर को मत छोड़ें, लेकिन पीसीए का उपयोग करने पर विचार करें। यहाँ पर क्यों।
सबसे पहले, जैसा कि एनी-मूस द्वारा इंगित किया गया है, k-mean, collinearity / सहसंबंधों से बुरी तरह प्रभावित नहीं है। आपको इसकी वजह से जानकारी फेंकने की आवश्यकता नहीं है।
दूसरे, यदि आप अपने चर को गलत तरीके से छोड़ते हैं, तो आप कृत्रिम रूप से कुछ नमूनों को एक साथ पास लाएंगे। एक उदाहरण:
Customer CatA CatB CatC
1 1 0 0
2 0 1 0
3 0 0 1
(मैंने% अंकन को हटा दिया है और केवल 0 और 1 के बीच मान डाल दिया है, इसलिए वे सभी 1 करने के लिए बाध्य हैं।)
( 1 - 0 )2+ ( 0 - 1 )2+ ( 0 - 0 )2-----------------------√= २-√
अब कहते हैं कि आप CatC ड्रॉप करें।
Customer CatA CatB
1 1 0
2 0 1
3 0 0
2-√( 1 - 0 )2+ ( 0 - 0 )2---------------√= 1
तीसरा, कोलीनारिटी / सहसंबंध समस्या नहीं हैं। आपकी आयामीता है। 100 चर इतने बड़े हैं कि 10 मिलियन डेटा पॉइंट्स के साथ भी, मुझे चिंता है कि k-mean डेटा में स्पुरियस पैटर्न पा सकता है और उसी पर फिट हो सकता है। इसके बजाय, पीसीए का उपयोग करने के बारे में अधिक आयामों की संख्या को प्रबंधित करने के बारे में सोचें - 10 या 12 के साथ शुरू करने के लिए कहें (शायद बहुत अधिक, शायद बहुत कम - आपको प्रत्येक घटक के साथ विचरण को देखना होगा, और चारों ओर खेलना होगा। एक बिट, सही संख्या खोजने के लिए)। आप कृत्रिम रूप से कुछ नमूने एक साथ ऐसा करते हुए करीब लाएंगे, हां, लेकिन आप ऐसा इस तरह से करेंगे कि डेटा में अधिकांश विचरण को संरक्षित किया जाए, और जो अधिमानतः सहसंबंधों को हटा देगा।
~~~~~
संपादित करें:
पीसीए के बारे में नीचे टिप्पणी। हाँ, यह बिल्कुल विकृति है। लेकिन यह बहुत जल्दी और आसान करने की कोशिश है, इसलिए अभी भी मुझे एक बुरा दांव नहीं लगता है अगर आप समस्या की गतिशीलता को कम करना चाहते हैं।
हालांकि उस नोट पर, मैंने जल्दी से 100 आयामी सिंथेटिक डेटा के कुछ सेटों को k- साधन एल्गोरिथ्म में फेंकने की कोशिश की, ताकि वे देख सकें। हालांकि क्लस्टर केंद्र की स्थिति का अनुमान सही नहीं था, क्लस्टर सदस्यता (यानी दो नमूने एक ही क्लस्टर को सौंपे गए थे या नहीं, जो ऐसा प्रतीत होता है कि ओपी में रुचि रखता है) उससे बहुत बेहतर था जितना मैंने सोचा था कि यह होगा। तो मेरा पेट पहले से महसूस कर रहा था कि संभवतः गलत था - k- मतलब माइग्रेशन कच्चे डेटा पर ठीक काम करता है।