क्या मुझे वैरिएबल को चलाने की ज़रूरत है जो कि किमी चलाने से पहले सहसंबद्ध / संपुटित होते हैं?


14

मैं ग्राहकों के समूहों की पहचान करने के लिए किमी चला रहा हूं। समूहों की पहचान करने के लिए मेरे पास लगभग 100 चर हैं। इनमें से प्रत्येक चर किसी श्रेणी पर एक ग्राहक द्वारा खर्च के% का प्रतिनिधित्व करता है। इसलिए, यदि मेरे पास 100 श्रेणियां हैं, तो मेरे पास इन 100 चर हैं जैसे कि प्रत्येक ग्राहक के लिए इन चर का योग 100% है। अब, ये चर एक दूसरे के साथ दृढ़ता से सहसंबद्ध हैं। क्या मुझे किमी चलाने से पहले कोलीनियरिटी को दूर करने के लिए इनमें से कुछ को छोड़ने की आवश्यकता है?

यहाँ नमूना डेटा है। वास्तव में मेरे पास 100 चर और 10 मिलियन ग्राहक हैं।

Customer CatA CatB CatC   
1         10%  70%  20%   
2         15%  60%  25%

1
क्या आपने अपने डेटा को सजाने के लिए पीसीए विश्लेषण की कोशिश की है?
मिरोस्लाव सबो

2
"Collinear" "correleted" के समान नहीं है। इसलिए आपका प्रश्न अस्पष्ट है
ttnphns

जवाबों:


10

किसी भी चर को मत छोड़ें, लेकिन पीसीए का उपयोग करने पर विचार करें। यहाँ पर क्यों।

सबसे पहले, जैसा कि एनी-मूस द्वारा इंगित किया गया है, k-mean, collinearity / सहसंबंधों से बुरी तरह प्रभावित नहीं है। आपको इसकी वजह से जानकारी फेंकने की आवश्यकता नहीं है।

दूसरे, यदि आप अपने चर को गलत तरीके से छोड़ते हैं, तो आप कृत्रिम रूप से कुछ नमूनों को एक साथ पास लाएंगे। एक उदाहरण:

Customer CatA CatB CatC
1        1    0    0
2        0    1    0
3        0    0    1

(मैंने% अंकन को हटा दिया है और केवल 0 और 1 के बीच मान डाल दिया है, इसलिए वे सभी 1 करने के लिए बाध्य हैं।)

(10)2+(01)2+(00)2=2

अब कहते हैं कि आप CatC ड्रॉप करें।

Customer CatA CatB 
1        1    0    
2        0    1    
3        0    0    

2(10)2+(00)2=1

तीसरा, कोलीनारिटी / सहसंबंध समस्या नहीं हैं। आपकी आयामीता है। 100 चर इतने बड़े हैं कि 10 मिलियन डेटा पॉइंट्स के साथ भी, मुझे चिंता है कि k-mean डेटा में स्पुरियस पैटर्न पा सकता है और उसी पर फिट हो सकता है। इसके बजाय, पीसीए का उपयोग करने के बारे में अधिक आयामों की संख्या को प्रबंधित करने के बारे में सोचें - 10 या 12 के साथ शुरू करने के लिए कहें (शायद बहुत अधिक, शायद बहुत कम - आपको प्रत्येक घटक के साथ विचरण को देखना होगा, और चारों ओर खेलना होगा। एक बिट, सही संख्या खोजने के लिए)। आप कृत्रिम रूप से कुछ नमूने एक साथ ऐसा करते हुए करीब लाएंगे, हां, लेकिन आप ऐसा इस तरह से करेंगे कि डेटा में अधिकांश विचरण को संरक्षित किया जाए, और जो अधिमानतः सहसंबंधों को हटा देगा।

~~~~~

संपादित करें:

पीसीए के बारे में नीचे टिप्पणी। हाँ, यह बिल्कुल विकृति है। लेकिन यह बहुत जल्दी और आसान करने की कोशिश है, इसलिए अभी भी मुझे एक बुरा दांव नहीं लगता है अगर आप समस्या की गतिशीलता को कम करना चाहते हैं।

हालांकि उस नोट पर, मैंने जल्दी से 100 आयामी सिंथेटिक डेटा के कुछ सेटों को k- साधन एल्गोरिथ्म में फेंकने की कोशिश की, ताकि वे देख सकें। हालांकि क्लस्टर केंद्र की स्थिति का अनुमान सही नहीं था, क्लस्टर सदस्यता (यानी दो नमूने एक ही क्लस्टर को सौंपे गए थे या नहीं, जो ऐसा प्रतीत होता है कि ओपी में रुचि रखता है) उससे बहुत बेहतर था जितना मैंने सोचा था कि यह होगा। तो मेरा पेट पहले से महसूस कर रहा था कि संभवतः गलत था - k- मतलब माइग्रेशन कच्चे डेटा पर ठीक काम करता है।


1
मुझे लगता है कि पीसीए द्वारा वैरिएबल को खत्म करते समय बहुत सावधानी बरतनी चाहिए। इस तरह के उन्मूलन से पहले सबसे पहले सभी प्रकार के बदलावों को सामान्य किया जाना चाहिए क्योंकि आप अपनी इकाइयों के कारण अलग-अलग पैमाने पर गलत तरीके से समाप्त कर सकते हैं। दूसरी बात यह है कि मैं केवल उन आयामों को समाप्त कर दूंगा जिनमें लघु-भिन्नता होती है, क्योंकि चूंकि पीसीए एक ऑर्थोगोनल आधार मानता है, अगर आपके पास गैर-ऑर्थोगोनल दिशा में भिन्नता है तो इसे के-साधनों द्वारा पकड़ लिया जाएगा लेकिन पीसीए द्वारा समाप्त कर दिया जाएगा।
कैगदास ओजेंकेन

1
(X1,X2)1ρ>0Y=X1X2(X1,X2)X1+X2X1X2YX1+X2

1
यह अनुपयोगी सेटिंग में अप्रासंगिक चर्चा है। पर्यवेक्षित सेटिंग के लिए हाँ PCA लक्ष्य चर के संबंध के बारे में परवाह नहीं करता है। यदि निर्भरता की दिशा कम विचरण दुर्भाग्य की दिशा में आती है।
कागदस ओजेंक

2

2 डी या 3 डी में एक खिलौना उदाहरण पर, यह बहुत अंतर नहीं करना चाहिए, यह सिर्फ आपके डेटा में कुछ अतिरेक जोड़ता है: आपके सभी बिंदु एक विषम (डी -1) आयामी हाइपरप्लेन पर हैं। तो क्लस्टर साधन हैं। और इस (d-1) आयामी हाइपरप्लेन में दूरी समान दूरी का एक रैखिक गुणक है, इसलिए यह कुछ भी नहीं बदलता है।

(x,y)(x,y,x+y)xy

आइए सबसे सरल उदाहरण देखें: डुप्लिकेट चर।

यदि आप अपने डेटा सेट पर पीसीए चलाते हैं, और एक चर की नकल करते हैं, तो इसका प्रभावी अर्थ है कि इस चर पर नकली वजन डालना। पीसीए इस धारणा पर आधारित है कि हर दिशा में विचरण समान रूप से महत्वपूर्ण है - इसलिए, आपको पीसीए करने से पहले, वास्तव में, ध्यान से वज़न चर (खाते में सहसंबंध लेना, कोई अन्य आवश्यक कार्य करना) करना चाहिए।


1
मेरे आँकड़े .stackexchange.com / a / 50583 पर मेरे विश्लेषण के प्रकाश में , यह तर्क गलत प्रतीत होता है।
whuber

मैंने अपने उत्तर में बहुत सुधार किया है, यह खिलौना उदाहरण डेटा पर बहुत अधिक आधारित था।
है क्विट - Anony-Mousse

1

यदि वे अत्यधिक सहसंबद्ध हैं तो चरों को हटाना उचित होगा ।

क्लस्टरिंग एल्गोरिथ्म या लिंकेज विधि के बावजूद, एक चीज जो आप आमतौर पर अनुसरण करते हैं, वह है बिंदुओं के बीच की दूरी का पता लगाना। वे चर जिन्हें अत्यधिक सहसंबद्ध रखा जाता है, वे सभी हैं, लेकिन उन्हें अधिक देते हुए, दो अंकों के बीच की दूरी की गणना करने में वजन को दोगुना करें (जैसा कि सभी चर सामान्य किए जाते हैं प्रभाव आमतौर पर दोगुना होगा)।

यदि किसी अन्य चर के साथ इसका उच्च सहसंबंध है, तो क्लस्टर गठन को प्रभावित करने के लिए चर की शक्ति कम हो जाती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.