उनके बीच सहसंबंधों के आधार पर क्लस्टरिंग चर


23

प्रशन:

  1. मेरे पास एक बड़ा सहसंबंध मैट्रिक्स है। व्यक्तिगत सहसंबंधों को क्लस्ट करने के बजाय, मैं एक दूसरे से उनके सहसंबंधों के आधार पर चर चर करना चाहता हूं, यदि चर ए और चर बी में चर से जेड तक समान सहसंबंध हैं, तो ए और बी एक ही क्लस्टर का हिस्सा होना चाहिए। इसका एक अच्छा वास्तविक जीवन उदाहरण विभिन्न परिसंपत्ति वर्ग हैं - अंतर संपत्ति वर्ग सहसंबंध अंतर-संपत्ति वर्ग सहसंबंध से अधिक है।

  2. मैं उन दोनों के बीच घनिष्ठ संबंधों के संदर्भ में क्लस्टरिंग चर पर विचार कर रहा हूं, उदाहरण के लिए जब चर ए और बी के बीच संबंध 0 के करीब है, तो वे स्वतंत्र रूप से अधिक या कम कार्य करते हैं। यदि अचानक कुछ अंतर्निहित स्थितियां बदल जाती हैं और एक मजबूत सहसंबंध (सकारात्मक या नकारात्मक) उत्पन्न होता है, तो हम इन दोनों चर को एक ही क्लस्टर के रूप में सोच सकते हैं। इसलिए सकारात्मक सहसंबंध की तलाश करने के बजाय, किसी को रिश्ते बनाम रिश्ते की तलाश करनी चाहिए। मुझे लगता है कि एक सादृश्य सकारात्मक और नकारात्मक चार्ज कणों का एक समूह हो सकता है। यदि चार्ज 0 पर गिर जाता है, तो कण क्लस्टर से दूर चला जाता है। हालांकि, सकारात्मक और नकारात्मक दोनों आरोप कणों को नए समूहों में आकर्षित करते हैं।

मैं माफी माँगता हूँ अगर इसमें से कुछ बहुत स्पष्ट नहीं है। कृपया मुझे बताएं, मैं विशिष्ट विवरण स्पष्ट करूंगा।


1
क्या कारक विश्लेषण qn 1 के लिए काम नहीं करेगा? प्रश्न 2 थोड़ा अस्पष्ट है। 'संबंध' 'सहसंबंध' का पर्यायवाची लगता है या कम से कम एक प्रकार का संबंध रैखिक संबंध है और सहसंबंध इसे दर्शाता है। शायद, आपको

आपने बताया है कि आप क्या करना चाहते हैं। क्या पूछते हैं? क्या यह कार्यान्वयन के बारे में है या क्या आपका विश्लेषण दृष्टिकोण उचित है? या कुछ और?
जेरोमे एंग्लीम

जवाबों:


14

bfiडेटासेट का उपयोग करके आर में एक सरल उदाहरण दिया गया है : bfi 25 व्यक्तित्व परीक्षण वस्तुओं का एक डेटासेट है जो 5 कारकों के आसपास आयोजित किया जाता है।

library(psych)
data(bfi)
x <- bfi 

चर के बीच पूर्ण सहसंबंध के आधार पर चर के बीच यूक्लिडन दूरी का उपयोग करते हुए एक हाइपरसोनिक क्लस्टर विश्लेषण प्राप्त किया जा सकता है:

plot(hclust(dist(abs(cor(na.omit(x))))))

वैकल्पिक शब्द डेंड्रोग्राम से पता चलता है कि कैसे सामान आम तौर पर प्रमेय समूह (जैसे, एन (न्यूरोटिज्म) आइटम समूह एक साथ) के अनुसार अन्य मदों के साथ क्लस्टर करते हैं। यह यह भी दर्शाता है कि क्लस्टर के भीतर कुछ आइटम कैसे समान हैं (जैसे, C5 और C1 C3 के साथ C5 से अधिक समान हो सकते हैं)। यह यह भी सुझाव देता है कि एन क्लस्टर अन्य समूहों के समान कम है।

वैकल्पिक रूप से आप एक मानक कारक विश्लेषण कर सकते हैं जैसे:

factanal(na.omit(x), 5, rotation = "Promax")


Uniquenesses:
   A1    A2    A3    A4    A5    C1    C2    C3    C4    C5    E1    E2    E3    E4    E5    N1 
0.848 0.630 0.642 0.829 0.442 0.566 0.635 0.572 0.504 0.603 0.541 0.457 0.541 0.420 0.549 0.272 
   N2    N3    N4    N5    O1    O2    O3    O4    O5 
0.321 0.526 0.514 0.675 0.625 0.804 0.544 0.630 0.814 

Loadings:
   Factor1 Factor2 Factor3 Factor4 Factor5
A1  0.242  -0.154          -0.253  -0.164 
A2                          0.570         
A3         -0.100           0.522   0.114 
A4                  0.137   0.351  -0.158 
A5         -0.145           0.691         
C1                  0.630           0.184 
C2  0.131   0.120   0.603                 
C3  0.154           0.638                 
C4  0.167          -0.656                 
C5  0.149          -0.571           0.125 
E1          0.618   0.125  -0.210  -0.120 
E2          0.665          -0.204         
E3         -0.404           0.332   0.289 
E4         -0.506           0.555  -0.155 
E5  0.175  -0.525   0.234           0.228 
N1  0.879  -0.150                         
N2  0.875  -0.152                         
N3  0.658                                 
N4  0.406   0.342  -0.148           0.196 
N5  0.471   0.253           0.140  -0.101 
O1         -0.108                   0.595 
O2 -0.145   0.421   0.125   0.199         
O3         -0.204                   0.605 
O4          0.244                   0.548 
O5  0.139                   0.177  -0.441 

               Factor1 Factor2 Factor3 Factor4 Factor5
SS loadings      2.610   2.138   2.075   1.899   1.570
Proportion Var   0.104   0.086   0.083   0.076   0.063
Cumulative Var   0.104   0.190   0.273   0.349   0.412

Test of the hypothesis that 5 factors are sufficient.
The chi square statistic is 767.57 on 185 degrees of freedom.
The p-value is 5.93e-72 

1
हाय जेरेमियो। प्रश्न: एब्स (कोर (...)) के डिस्टर्ब लेने का क्या मतलब है? क्या कोई कोर मैट्रिक्स नहीं है, जहां एक बड़ी संख्या एक संबंध के बारे में अधिक बताती है, जबकि दूरी मैट्रिक्स में विपरीत सच है? (मुझे संदेह है कि मुझे कुछ याद आ रहा है, क्या आप कृपया समझा सकते हैं?)
ताल गैलिली

@ मेरी समझ यह है कि डिस्टर्ब फंक्शन मैट्रिक्स की यूक्लिडियन दूरी को पार कर जाता है, जो इस मामले में एक पूर्ण सहसंबंध मैट्रिक्स था। शायद, सहसंबंध मैट्रिक्स से अधिक शाब्दिक रूपांतरण as.dist () फ़ंक्शन होगा जो एक मौजूदा दूरी मैट्रिक्स लेता है: जैसे, as.dist (1-abs (cor (na.omit (x))))। देखें? दूर
जेरोमे एंग्लीम

1
1-abs (cor ...) का उपयोग करने से मुझे और अधिक समझ में आएगा :)
Tal Galili

@ ताल हां। मैं सहमत हूँ। मैंने झट से देख लिया। इस मामले में दूरियों की सदिश (1-abs cor के साथ abs cor का euclidean) लगभग .96 से संबंधित है, इसलिए इससे बहुत फ़र्क नहीं पड़ता।
जेरोमे एंग्लीम

1
@ सटीक विकल्प का चयन करें: प्रत्येक चर में पूर्ण सहसंबंधों का एक वेक्टर होता है। अधिक समान वैक्टर वाले वेरिएबल्स की छोटी यूक्लिडियन दूरी होगी: en.wikipedia.org/wiki/Euclidean_distance
जेरोमी एंग्लिम

2

जब क्लस्टरिंग सहसंबंधों यह दूरी दो बार गणना करने के लिए महत्वपूर्ण नहीं है। जब आप सहसंबंध मैट्रिक्स लेते हैं तो आप एक दूरी की गणना कर रहे हैं। आप 1 - निरपेक्ष मान लेकर इसे एक सच्ची दूरी में बदलना चाहेंगे।

1-abs(cor(x))

जब आप इस मैट्रिक्स को डिस्टेंस ऑब्जेक्ट में बदलने के लिए जाते हैं, यदि आप डिस्टर्ब फंक्शन का उपयोग करते हैं तो आप अपने सहसंबंधों के बीच दूरियां ले रहे होंगे। इसके बजाय आप as.dist()फ़ंक्शन का उपयोग करना चाहते हैं जो बस आपके पूर्व-परिकलित दूरियों को एक "dist"वस्तु में बदल देगा।

इस विधि को Alglim उदाहरण के लिए लागू करना

library(psych)
data(bfi)
x <- bfi 
plot(hclust(as.dist(1-abs(cor(na.omit(x))))))

एक अलग डेंड्रोग्राम में परिणाम क्लस्टर डेंड्रोग्राम

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.