पीसीए लोडिंग की व्याख्या कैसे करें?


13

पीसीए के बारे में पढ़ते हुए, मैं निम्नलिखित स्पष्टीकरण पर आया:

मान लें कि हमारे पास एक डेटा सेट है जहां प्रत्येक डेटा बिंदु एक गणित परीक्षा, एक भौतिकी परीक्षण, एक पढ़ने की समझ परीक्षण और एक शब्दावली परीक्षण पर एक एकल छात्र के अंकों का प्रतिनिधित्व करता है।

हम पहले दो प्रमुख घटक पाते हैं, जो डेटा में परिवर्तनशीलता के 90% पर कब्जा करते हैं, और उनके लोडिंग की व्याख्या करते हैं। हम निष्कर्ष निकालते हैं कि पहला प्रमुख घटक समग्र शैक्षणिक क्षमता का प्रतिनिधित्व करता है, और दूसरा मात्रात्मक क्षमता और मौखिक क्षमता के बीच एक विपरीत का प्रतिनिधित्व करता है।

पाठ बताता है कि PC1 के लिए PC1 और PC2 लोडिंग हैं और PC2 के लिए , और निम्नलिखित विवरण प्रदान करता है:( 0.5 , 0.5 , - 0.5 , - 0.5 )(0.5,0.5,0.5,0.5)(0.5,0.5,0.5,0.5)

[टी] वह पहला घटक औसत स्कोर के लिए आनुपातिक है, और दूसरा घटक स्कोर की पहली जोड़ी और दूसरे जोड़े के बीच अंतर को मापता है।

मैं समझ नहीं पा रहा हूं कि इस स्पष्टीकरण का क्या मतलब है।


7
किसी तरह @ ttnphns का जवाब बहुत सारे गणितीय विवरणों में जाता है, लेकिन मुझे लगता है कि मूल प्रश्न वास्तव में सीधा था: लोडिंग वेक्टर पीसी 1 (0.5, 0.5, 0.5, 0.5) के लिए क्यों करता है इसका मतलब है कि पहला घटक औसत स्कोर के समानुपातिक है। "? खैर, इसका उत्तर यह है कि लोडिंग मूल चर के रैखिक संयोजन में गुणांक [आनुपातिक] हैं जो PC1 बनाता है। तो आपका पहला PC1 सभी चार चर समय 0.5 का योग है। इसका मतलब है कि यह चार चर के औसत के अनुपात में है। और पीसी 2 के साथ भी ऐसा ही है। मुझे लगता है कि यह मूल प्रश्न का उत्तर देता है।
अमीबा का कहना है कि मोनिका को

@amoeba - क्या आप जानते हैं कि लोडिंग की इतनी सरल व्याख्या करना कितना कठिन है। किसी भी तरह, हर जगह यह मेरे ऊपर शब्दजाल पित्त का एक कौर है, इससे पहले कि मैं Google पर अगले स्पष्टीकरण पर आगे बढ़ने का फैसला करूं। धन्यवाद!
हेलोमिंदरबिंदर

जवाबों:


13

लोडिंग (जो eigenvectors के साथ भ्रमित नहीं होना चाहिए ) में निम्नलिखित गुण हैं:

  1. प्रत्येक घटक के भीतर वर्गों के उनके योग प्रतिजन (घटक 'संस्करण) हैं।
  2. लोडिंग रेखीय संयोजन में गुणांक हैं (मानकीकृत) घटकों द्वारा एक चर की भविष्यवाणी करते हुए।

आपने 4 में से 2 पहले पीसी निकाले। लोडिंग के मैट्रिक्स और eigenvalues:A

A (loadings)
         PC1           PC2
X1   .5000000000   .5000000000 
X2   .5000000000   .5000000000 
X3   .5000000000  -.5000000000 
X4   .5000000000  -.5000000000
Eigenvalues:
    1.0000000000  1.0000000000

इस उदाहरण में, दोनों eigenvalues ​​समान हैं। यह वास्तविक दुनिया में एक दुर्लभ मामला है, यह कहता है कि PC1 और PC2 समान व्याख्यात्मक "ताकत" के हैं।

मान लीजिए कि आपने घटक मान, Nx2मैट्रिक्स , और आपने z- मानकीकृत (मतलब = 0, st। Dev। = 1) उन्हें प्रत्येक कॉलम में दिया है। तब (जैसा कि ऊपर 2 बिंदु कहता है), । लेकिन, क्योंकि आप 4 में से केवल 2 पीसी छोड़ते हैं (आप में 2 और कॉलम कमी है ) पुनर्स्थापित डेटा मान सटीक नहीं हैं, - एक त्रुटि है (यदि eigenvalues ​​3, 4 नहीं है) शून्य)।एक्स = सी 'एक्सCX^=CAAX^

ठीक। चर द्वारा घटकों की भविष्यवाणी करने के लिए गुणांक क्या हैं ? स्पष्ट रूप से, अगर भरे हुए थे , तो ये ।गैर-वर्ग लोडिंग मैट्रिक्स के साथ, हम उन्हें रूप में गणना कर सकते हैं , जहां इसके विकर्ण और प्रतिजन के साथ वर्ग विकर्ण मैट्रिक्स है, और सुपरस्क्रिप्ट को छद्म बिंदु के रूप में दर्शाया गया है। आपके मामले में:A4x4B=(A1)B=Adiag(eigenvalues)1=(A+)diag(eigenvalues)+

diag(eigenvalues):
1 0
0 1

B (coefficients to predict components by original variables):
    PC1           PC2
X1 .5000000000   .5000000000 
X2 .5000000000   .5000000000 
X3 .5000000000  -.5000000000 
X4 .5000000000  -.5000000000

इसलिए, अगर मूल केंद्रित चर (या मानकीकृत चर) का मैट्रिक्स है, यदि आप सहसंबंधों के बजाय सहसंबंधों के आधार पर पीसीए कर रहे हैं), तो ; मानकीकृत प्रमुख घटक स्कोर हैं। आपके उदाहरण में कौन सा है:XNx4C=XBC

PC1 = 0.5 * X1 + 0.5 * X2 + 0.5 * X3 + 0.5 * X4 ~ (X1 + X2 + X3 + X4) / 4

"पहला घटक औसत स्कोर के समानुपाती है"

PC2 = 0.5 * X1 + 0.5 * X2 - 0.5 * X3 - 0.5 * X4 = (0.5 * X1 + 0.5 * X2) - (0.5 * X3 + 0.5 * X4)

"दूसरा घटक अंकों की पहली जोड़ी और अंकों की दूसरी जोड़ी के बीच अंतर को मापता है"

इस उदाहरण में यह दिखाई दिया कि , लेकिन सामान्य रूप से वे भिन्न हैं।B=A


नोट : गुणांक के घटक घटकों के स्कोर के लिए उपरोक्त सूत्र, , बराबर है , साथ। चर का सहसंयोजक (या सहसंबंध) मैट्रिक्स। उत्तरार्द्ध सूत्र सीधे रैखिक प्रतिगमन सिद्धांत से आता है। पीसीए के संदर्भ में दो सूत्र समान हैं। कारक विश्लेषण में, वे कारक स्कोर की गणना नहीं करते हैं (जो कि एफए में हमेशा अनुमानित होते हैं) एक को दूसरे सूत्र पर भरोसा करना चाहिए। बी = आर - 1आरB=Adiag(eigenvalues)1B=R1AR


संबंधित जवाब मेरा:

लोडिंग बनाम आइगेनवेक्टरों के बारे में अधिक विस्तृत

कैसे प्रमुख घटक स्कोर और कारक स्कोर की गणना की जाती है


2
यदि परिवर्तनशीलता के 90% के लिए 4 में से 2 घटक हैं, तो उनके eigenvalues ​​2 में कैसे आएंगे?
निक कॉक्स

निक, मुझे यह ओपी के लिए एक सवाल है। उन्होंने डेटा या सहसंयोजक / सहसंबंध मैट्रिक्स नहीं दिया। उसके पास से हम सभी पहले 2 पीसी के एक (बल्कि अवास्तविक) लोडिंग मैट्रिक्स है।
tnnphns

3
अच्छा बिंदु, @Nick, यह वास्तव में संभव नहीं है एक की कुल विचरण के रूप में, सहसंबंध मैट्रिक्स होना चाहिए दोनों eigenvalues के साथ ऐसा दो पीसी, के लिए जरूरी खाता परिवर्तनशीलता की। मैं आपको यह नहीं समझा रहा हूं, निश्चित रूप से, लेकिन इस धागे के अन्य संभावित पाठकों के लिए। Ttnphns का उत्तर सही रहता है (+1), लेकिन हमारे पास ओपी द्वारा बताई गई संख्या को अनदेखा करने के अलावा और कोई विकल्प नहीं है । 4 1 50 % 90 %4×44150%90%
अमीबा का कहना है कि
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.