पीसीए और पीएलएस में "लोडिंग" और "सहसंबंध लोडिंग" के बीच अंतर क्या है?


11

प्रधान घटक विश्लेषण (पीसीए) करते समय एक सामान्य बात यह है कि चर के बीच संबंधों की जांच के लिए एक दूसरे के खिलाफ दो लोडिंग की साजिश रचें। मूल घटक प्रतिगमन और पीएलएस प्रतिगमन करने के लिए पीएलएस आर पैकेज के साथ पेपर में एक अलग भूखंड है, जिसे सहसंबंध लोडिंग प्लॉट कहा जाता है (देखें कागज में 7 और पृष्ठ 15 देखें)। सहसंबंध लोड हो रहा है , के रूप में यह समझाया गया है, (पीसीए से या PLS) स्कोर के बीच संबंध और वास्तविक मनाया डेटा है।

यह मुझे लगता है कि लोडिंग और सहसंबंध लोडिंग बहुत समान हैं, सिवाय इसके कि उन्हें थोड़ा अलग तरीके से बढ़ाया जाता है। आर में एक प्रतिलिपि प्रस्तुत करने योग्य उदाहरण, डेटा सेट mtcars में निर्मित इस प्रकार है:

data(mtcars)
pca <- prcomp(mtcars, center=TRUE, scale=TRUE)

#loading plot
plot(pca$rotation[,1], pca$rotation[,2],
     xlim=c(-1,1), ylim=c(-1,1),
     main='Loadings for PC1 vs. PC2')

#correlation loading plot
correlationloadings <- cor(mtcars, pca$x)
plot(correlationloadings[,1], correlationloadings[,2],
     xlim=c(-1,1), ylim=c(-1,1),
     main='Correlation Loadings for PC1 vs. PC2')

loadingplot correlationloadinsplot

इन भूखंडों की व्याख्या में क्या अंतर है? और कौन सी साजिश (यदि कोई है) अभ्यास में उपयोग करना सबसे अच्छा है?


pca के बेहतर दृश्य के लिए, biplot (pca) का उपयोग करें, यह आपको pca के लोडिंग और स्कोर को दिखाता है और इसलिए आप इसे बेहतर व्याख्या कर सकते हैं।
पॉल

6
R prcompपैकेज लापरवाह eigenvectors को "लोडिंग" कहता है। मैं इन शर्तों को अलग रखने की सलाह देता हूं । लोडिंग eigenvectors संबंधित eigenvalues ​​तक बढ़ाए जाते हैं।
ttnphns

1
एक लोडिंग प्लॉट की ज्यामिति को समझाते हुए: आंकड़े.स्टैकएक्सचेंज.com
119758

जवाबों:


13

चेतावनी: Rभ्रामक तरीके से "लोडिंग" शब्द का उपयोग करता है। मैं इसे नीचे समझाता हूं।

कॉलमों में (केंद्रित) चर और पंक्तियों में डेटा बिंदुओं के साथ डेटासेट पर विचार करें । इस डेटासेट की PCA को एकवचन मान अपघटन । कॉलम प्रमुख घटक (PC "स्कोर") हैं और कॉलम प्रमुख अक्ष हैं। सहसंयोजक मैट्रिक्स , इसलिए प्रिंसिपल एक्सिस कोविर्सियस मैट्रिक्स के eigenvectors हैं।XNX=USVUSV1N1XX=VS2N1VV

"लोडिंग" को कॉलम के रूप में परिभाषित किया गया है , यानी वे संबंधित स्वदेशी के वर्गमूल द्वारा स्केल किए गए आइजनवेक्टर हैं। वे eigenvectors से अलग हैं! प्रेरणा के लिए मेरा जवाब यहां देखेंL=VSN1

इस औपचारिकता का उपयोग करते हुए, हम मूल चर और मानकीकृत पीसी के बीच क्रॉस-कोवरियन मैट्रिक्स की गणना कर सकते हैं: यानी इसे लोडिंग के साथ दिया जाता है। मूल चर और पीसी के बीच क्रॉस-सहसंबंध मैट्रिक्स मूल चर के मानक विचलन (सहसंबंध की परिभाषा) द्वारा विभाजित एक ही अभिव्यक्ति द्वारा दिया गया है। यदि पीसीए प्रदर्शन करने से पहले मूल चर को मानकीकृत किया गया था (यानी पीसीए को सहसंबंध मैट्रिक्स पर प्रदर्शन किया गया था) तो वे सभी बराबर हैं । इस अंतिम स्थिति में क्रॉस-सहसंबंध मैट्रिक्स को फिर से केवल द्वारा दिया जाता है ।

1N1X(N1U)=1N1VSUU=1N1VS=L,
1L

पारिभाषिक भ्रम को स्पष्ट करने के लिए: आर पैकेज जिसे "लोडिंग" कहते हैं, मुख्य अक्ष हैं, और इसे "सहसंबंध लोडिंग" कहते हैं (पीसीए के लिए सहसंबंध मैट्रिक्स पर) वास्तव में लोडिंग हैं। जैसा कि आपने स्वयं देखा, वे केवल स्केलिंग में भिन्न हैं। साजिश करने के लिए बेहतर क्या है, इस पर निर्भर करता है कि आप क्या देखना चाहते हैं। निम्नलिखित सरल उदाहरण पर विचार करें:

Biplots

लेफ्ट सबप्लॉट एक मानकीकृत 2D डेटासेट दिखाता है (प्रत्येक वेरिएबल में यूनिट विचरण है), मुख्य विकर्ण के साथ फैला हुआ है। मिडल सबप्लॉट एक बाइप्लॉट है : यह PC1 बनाम PC2 का स्कैटर प्लॉट है (इस मामले में सीधे डेटासेट को 45 डिग्री से घुमाया जाता है) की पंक्तियों के साथ शीर्ष पर वैक्टर के रूप में प्लॉट किया जाता है। ध्यान दें कि और वैक्टर 90 डिग्री अलग हैं; वे आपको बताते हैं कि मूल अक्ष कैसे उन्मुख होते हैं। राइट सबप्लॉट एक ही बाइप्लॉट है, लेकिन अब वैक्टर की पंक्तियों को दिखाते हैं । ध्यान दें कि अब और वैक्टरों के बीच एक तीव्र कोण है; वे आपको बताते हैं कि पीसी और और दोनों के मूल चर कितने हैं एक्स y एल एक्स y एक्स yVxyLxyxyPC2 की तुलना में PC1 के साथ बहुत अधिक सहसंबद्ध हैं। मुझे लगता है कि ज्यादातर लोग ज्यादातर सही प्रकार के बाइपोलॉट देखना पसंद करते हैं।

ध्यान दें कि दोनों मामलों में और वैक्टर दोनों की इकाई लंबाई है। यह केवल इसलिए हुआ क्योंकि डेटासेट प्रारंभ करने के लिए 2D था; मामले में जब अधिक चर होते हैं, तो व्यक्तिगत वैक्टर की लंबाई से कम हो सकती है , लेकिन वे यूनिट सर्कल के बाहर कभी नहीं पहुंच सकते। इस तथ्य का प्रमाण मैं एक अभ्यास के रूप में छोड़ता हूं।y xy1

चलिए अब mtcars डेटासेट पर एक और नज़र डालते हैं । यहाँ सहसंबंध मैट्रिक्स पर किए गए PCA का एक द्विप्लव है:

mtcars pca biplot

काली लाइनों को का उपयोग करके प्लॉट किया जाता है, लाल लाइनों को का उपयोग करके प्लॉट किया जाता है ।एलVL

और यहाँ covariance मैट्रिक्स पर किए गए PCA का एक द्विप्लव है:

mtcars pca biplot

यहां मैंने सभी वैक्टर और यूनिट सर्कल को बढ़ा दिया है , क्योंकि अन्यथा यह दिखाई नहीं देगा (यह आमतौर पर इस्तेमाल की जाने वाली चाल है)। फिर से, काली रेखाएं की पंक्तियों को दिखाती हैं , और लाल रेखाएं चर और पीसी के बीच सहसंबंध दिखाती हैं (जो कि अब नहीं दिया गया है , ऊपर देखें)। ध्यान दें कि केवल दो काली रेखाएँ दिखाई देती हैं; इसका कारण यह है कि दो चर बहुत अधिक विचरण करते हैं और mtcars डाटासेट पर हावी होते हैं । दूसरी ओर, सभी लाल रेखाओं को देखा जा सकता है। दोनों अभ्यावेदन कुछ उपयोगी जानकारी देते हैं।वी एल100VL

PS PCA biplots के कई अलग-अलग वेरिएंट हैं, कुछ और स्पष्टीकरण और अवलोकन के लिए मेरा जवाब यहां देखें: PCA biplot पर तीर की स्थिति । CrossValidated पर कभी भी पोस्ट किया गया सबसे सुंदर बिप्लॉट यहां पाया जा सकता है


2
यद्यपि यह एक बहुत अच्छा उत्तर है (+1), इसकी एक बस दिमागी कमजोरी है, जिसमें यह शुरू में X की पंक्तियों में चर डालता है, X के स्तंभों में नहीं, जैसा कि परंपरागत रूप से सांख्यिकीय डेटासेट / उदाहरणों में जाता है। उस स्थानान्तरण के कारण, U वैक्टर मामलों के बारे में चर और V के उत्तर में बन जाते हैं। पीसीए जानने वाले अधिकांश लोग विपरीत लेआउट के आदी हैं; इसलिए यह धारणा में बाधा डालता है, थोड़ा।
ttnphns

1
मैं मौखिक रूप से "एक्सिस बाइपोलॉट" और स्कैन पर "लोडिंग बाइप्लॉट" के बीच अंतर के "नैतिक" तनाव की सिफारिश कर सकता हूं। पहले में, परिवर्तनशीलता (= पैमाने, = परिमाण, = जड़ता, = द्रव्यमान) को प्रस्तुत नहीं किया जाता है: इसे दूर स्वदेशी में संग्रहीत किया जाता है। दूसरे में, यह पूरी तरह से eigenvectors को दिया गया था जो चर का प्रतिनिधित्व करते थे; उस "पुनरुत्थान" के आधार पर चर दो बिंदुओं या वैक्टरों के सार्थक डेटा क्लाउड बन जाते हैं, जिसमें मूल और विशिष्ट कोण से विशिष्ट लेनगेट्स होते हैं। यह है कि हम कैसे "अचानक" खुद को विषय स्थान में पाते हैं ।
ttnphns

धन्यवाद @ttnphns, दोनों अच्छे अंक। की पंक्तियों / स्तंभों के बारे मेंXxUUxXUXXXU

1
यह निश्चित रूप से, स्वाद का मामला है। मन, हालांकि, सांख्यिकीय कार्यक्रमों के महान बहुमत के रूप में डेटा स्प्रेडशीट दिखाते हैं cases X variables। तब तक, अधिकांश सांख्यिकीय विश्लेषण ग्रंथों में रैखिक बीजगणित मामले को एक पंक्ति वेक्टर बनाते हैं। शायद मशीन सीखने में यह अलग है?
ttnphns

1
@user_anon नहीं, यह उत्तर मानक पीसीए पर विचार करता है, बिना किसी कारक घुमाव के।
अमीबा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.