कौन से चर समझाते हैं कि कौन से पीसीए घटक, और इसके विपरीत?


15

इस डेटा का उपयोग करना:

head(USArrests)
nrow(USArrests)

मैं पीसीए इस प्रकार कर सकता हूं:

plot(USArrests)
otherPCA <- princomp(USArrests)

मैं नए घटकों को प्राप्त कर सकता हूं

otherPCA$scores

और विचरण के अनुपात को घटकों द्वारा समझाया गया

summary(otherPCA)

लेकिन क्या होगा अगर मैं जानना चाहता हूं कि कौन से चर ज्यादातर मुख्य घटकों द्वारा समझाया जाता है? और इसके विपरीत: जैसे PC1 या PC2 ज्यादातर द्वारा समझाया गया है murder? मैं यह कैसे कर सकता हूँ?

क्या मैं उदाहरण के लिए कह सकता हूं कि PC1 80% द्वारा समझाया गया है murderया assault?

मुझे लगता है कि लोडिंग मुझे यहां मदद करता है, लेकिन वे दिशात्मकता दिखाते हैं न कि विचरण को समझाया गया है जैसा कि मैं इसे समझता हूं, उदा

otherPCA$loadings

Loadings:
         Comp.1 Comp.2 Comp.3 Comp.4
Murder                         0.995
Assault  -0.995                     
UrbanPop        -0.977 -0.201       
Rape            -0.201  0.974   

2
ध्यान दें कि लोडिंग के संकेत मनमाने हैं। तीन अपराध चर सभी सकारात्मक रूप से एक-दूसरे के साथ सहसंबद्ध हैं, लेकिन आप काम करने के लिए स्मार्ट होंगे जो कि ऊपर के लोडिंग के संकेतों से।
निक कॉक्स

दुर्भाग्य से, मेरा मानना ​​है कि इस प्रश्न का स्वीकृत उत्तर गलत है। मैंने अपना जवाब नीचे दिया।
अमीबा का कहना है कि

जवाबों:


11

आप सही हैं, यहां लोडिंग आपकी मदद कर सकती है। उनका उपयोग चर और मुख्य घटकों के बीच सहसंबंध की गणना करने के लिए किया जा सकता है। इसके अलावा, सभी प्रमुख घटकों पर एक चर के वर्ग लोडिंग का योग 1 के बराबर है। इसलिए, चुकता लोडिंग आपको एक प्रमुख घटक द्वारा समझाया गया चर के भिन्नता का अनुपात बताता है।

प्रिंसिपल के साथ समस्या यह है कि यह केवल "बहुत अधिक" लोडिंग दिखाता है। लेकिन चूंकि लोडिंग कोविरियस मैट्रिक्स के आइजनवेक्टर हैं, इसलिए eigenआर में कमांड का उपयोग करके सभी लोडिंग प्राप्त कर सकते हैं :

 loadings <- eigen(cov(USArrests))$vectors
 explvar <- loadings^2

अब, आपके पास मैट्रिक्स में वांछित जानकारी है explvar


धन्यवाद यादृच्छिक आदमी, क्या आप संभवतः मुझे उदाहरण के लिए दिखा सकते हैं assaultया urban popहम ऐसा कर सकते हैं? आंशिक रूप से उलझन में है क्योंकि मैट्रिक्स में केवल एक सहसंबंध मौजूद हैassault
16:13 पर user1320502

1
क्षमा करें, मैंने अपने उत्तर में सुधार किया और ध्यान नहीं दिया कि आपने मेरी पोस्ट पर पहले ही टिप्पणी कर दी थी। पीसी 1 पर -0.995 के साथ हमला लोड। इस प्रकार, कोई इस मान को समाप्त करने के बाद समाप्त हो सकता है PC1 चर हमले के विचलन का 99% बताता है। शहरी पॉप के मूल्यों को चुकता करने के बाद, आप पीसी 3 का निष्कर्ष निकाल सकते हैं 4% और शहरी आबादी के विचरण के पीसी 2 95.5% बताते हैं।
random_guy

1
क्या ओपी यह नहीं पूछता है कि पीसीए को एक चर के लिए कितना जिम्मेदार ठहराया जा सकता है? आपका उत्तर इस बारे में है कि एक चर का कितना समझाया जा सकता है एक CPA
Heisenberg

2
w=(0.3,0.3,...0.3)1109.9w0.1

2
आग्रह करने के लिए क्षमा करें, लेकिन क्या आपको लगता है कि मैं अपनी टिप्पणी में गलत हूं? यदि नहीं, तो आप संभावित भ्रम को दूर करने के लिए अपने उत्तर को संपादित कर सकते हैं, यह भविष्य के पाठकों के लिए बहुत उपयोगी होगा। मैंने अभी खुद एक उत्तर पोस्ट किया है, इन मुद्दों को और अधिक विस्तार से समझाने की कोशिश कर रहा हूं।
अमीबा का कहना है कि मोनिका

9

मुझे लगता है कि स्वीकृत उत्तर खतरनाक रूप से भ्रामक हो सकता है (-1)। ओपी में कम से कम चार अलग-अलग प्रश्नों को एक साथ मिलाया गया है। मैं उन्हें एक के बाद एक विचार करूंगा।


  • Q1। किसी दिए गए मूल चर के द्वारा किसी दिए गए पीसी के कितने संस्करण की व्याख्या की गई है? किसी दिए गए PC द्वारा किसी दिए गए मूल चर के विचरण को कितना समझाया जाता है?

r2riVisiLiLi=(si)1/2Vi। इसके तत्व संबंधित मूल चरों के साथ इस पीसी के सहसंबंध हैं।

ViLi

इसके अलावा, यदि पीसीए सहसंयोजकों (और सहसंबंधों पर नहीं) पर किया जाता है, तो लोडिंग आपको सहसंबंध भी देगा, सहसंबंध नहीं। सहसंबंध प्राप्त करने के लिए, किसी को पीसीए का पालन करते हुए, उन्हें मैन्युअल रूप से गणना करने की आवश्यकता है। [वर्तमान में स्वीकृत उत्तर उस बारे में स्पष्ट नहीं है।]

  • 80%

r2R2

r2R2

  • 80%

r=0.9r=0.9r2R2=0.90.95>1R2

विचरण की दी गई राशि की व्याख्या करने वाले उपसमूह का चयन कैसे करें, @FrankHarrell (+1) द्वारा सुझाया गया था।


+1, यह स्वीकृत उत्तर होना चाहिए।
gented


6

आर के साथ बंडल किए गए अमेरिकी गिरफ्तारियां यहां एक उदाहरण हैं, लेकिन मैं ध्यान देता हूं कि प्रश्न में लोडिंग गणना कोवरियस मैट्रिक्स के पीसीए से आती है । यह मनमानी और निरर्थक के बीच कहीं है, क्योंकि चर अलग-अलग पैमानों पर मापा जाता है।

शहरी आबादी प्रतिशत की तरह दिखती है। कैलिफोर्निया 91% और उच्चतम है।

तीन अपराध चर आबादी के आकार (संभवतः कुछ समय अवधि के लिए) के सापेक्ष व्यक्त किए गए अपराधों के लिए गिरफ्तारी की संख्या प्रतीत होते हैं। संभवतः यह कहीं न कहीं प्रलेखित है चाहे वह प्रति 1000 या 10000 गिरफ्तारी हो या जो भी हो।

दी गई इकाइयों में हमले चर का मतलब लगभग 171 है और औसत हत्या लगभग 8. है। इसलिए, आपके लोडिंग की व्याख्या यह है कि बड़े हिस्से में पैटर्न एक कला है: यह चर की बहुत भिन्नता पर निर्भर करता है।

इसलिए, हालांकि आंकड़ों में यह समझ है कि हत्याओं, आदि की तुलना में हमलों के लिए कई और गिरफ्तारियां हैं, यह ज्ञात (या अस्वाभाविक) तथ्य विश्लेषण पर हावी है।

इससे पता चलता है कि आंकड़ों में और कहीं भी, आपको यह सोचना होगा कि आप पीसीए में क्या कर रहे हैं।

यदि आप इसे आगे ले जाते हैं:

  1. मेरा तर्क है कि विश्लेषण से प्रतिशत शहरी बेहतर बचा है। शहरी होना कोई अपराध नहीं है; यह निश्चित रूप से अपराध को प्रभावित करने वाले चर के लिए प्रॉक्सी की सेवा कर सकता है।

  2. एक सहसंबंध मैट्रिक्स पर आधारित एक पीसीए मेरे विचार में अधिक समझ में आता है। एक और संभावना गिरफ्तारी दरों के लघुगणक के साथ काम करना है, गिरफ्तारी दर नहीं (सभी मूल्य सकारात्मक हैं; नीचे देखें)।

नोट: @ random_guy का उत्तर जानबूझकर सहसंयोजक मैट्रिक्स का उपयोग करता है।

यहाँ कुछ सारांश आँकड़े दिए गए हैं। मैंने स्टाटा का उपयोग किया, लेकिन यह काफी सारहीन है।

    Variable |       Obs        Mean    Std. Dev.       Min        Max
-------------+--------------------------------------------------------
   urban_pop |        50       65.54    14.47476         32         91
      murder |        50       7.788     4.35551         .8       17.4
        rape |        50      21.232    9.366384        7.3         46
     assault |        50      170.76    83.33766         45        337
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.