PCA घटक के साथ एक चर (बाइपोलॉट / लोडिंग प्लॉट पर) का उचित संघ माप क्या है?


17

मैं FactoMineRअव्यक्त चर के लिए माप के अपने डेटा सेट को कम करने के लिए उपयोग कर रहा हूं ।

![variable map](http://f.cl.ly/items/071s190V1G3s1u0T0Y3M/pca.png)

ऊपर दिए गए चर का नक्शा मेरे लिए व्याख्या करने के लिए स्पष्ट है, लेकिन जब चर और घटक के बीच जुड़ाव की बात आती है तो मैं भ्रमित हो जाता हूं। 1. चर मानचित्र को देखते हुए, ddpऔर नक्शे covमें घटक के बहुत करीब है, और ddpAbsथोड़ा आगे है दूर। लेकिन, यह वह नहीं है जो सहसंबंध दिखाता है:

$Dim.1
$Dim.1$quanti
        correlation      p.value
jittAbs   0.9388158 1.166116e-11
rpvi      0.9388158 1.166116e-11
sd        0.9359214 1.912641e-11
ddpAbs    0.9327135 3.224252e-11
rapAbs    0.9327135 3.224252e-11
ppq5      0.9319101 3.660014e-11
ppq5Abs   0.9247266 1.066303e-10
cov       0.9150209 3.865897e-10
npvi      0.8853941 9.005243e-09
ddp       0.8554260 1.002460e-07
rap       0.8554260 1.002460e-07
jitt      0.8181207 1.042053e-06
cov5_x    0.6596751 4.533596e-04
ps13_20  -0.4593369 2.394361e-02
ps5_12   -0.5237125 8.625918e-03

फिर sin2मात्रा है, जो rpvi(उदाहरण के लिए) के लिए ऊंचाई है , लेकिन वह माप चर नहीं है जो पहले घटक के सबसे करीब है।

Variables
           Dim.1    ctr   cos2    Dim.2    ctr   cos2  
rpvi    |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
npvi    |  0.885  7.227  0.784 |  0.075  0.267  0.006 |
cov     |  0.915  7.719  0.837 | -0.006  0.001  0.000 |
jittAbs |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
jitt    |  0.818  6.171  0.669 |  0.090  0.380  0.008 |
rapAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
rap     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
ppq5Abs |  0.925  7.884  0.855 |  0.091  0.392  0.008 |
ppq5    |  0.932  8.007  0.868 | -0.035  0.057  0.001 |
ddpAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
ddp     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
pa      |  0.265  0.646  0.070 | -0.857 34.614  0.735 |
ps5_12  | -0.524  2.529  0.274 |  0.664 20.759  0.441 |
ps13_20 | -0.459  1.945  0.211 |  0.885 36.867  0.783 |
cov5_x  |  0.660  4.012  0.435 |  0.245  2.831  0.060 |
sd      |  0.936  8.076  0.876 |  0.056  0.150  0.003 |

तो, एक चर और पहले घटक के बीच जुड़ाव आने पर मुझे क्या देखना चाहिए?


1
Althougt आपके नक्शे पर (जो लोडिंग प्लॉट के रूप में दिखता है) अव्यवस्था की ओर इशारा करता है, मैं कहूंगा कि यह प्लॉट "सहसंबंध" आउटपुट से अच्छी तरह मेल खाता है। उन "सहसंबंध" Dim1 पर निर्देशांक हैं। वे, लोडिंग, एक कारक और चर के बीच सहसंबंध हैं (जब आप मानकीकृत डेटा पर अपनी सहायता के आधार पर = सहसंबंधों पर बी / डब्ल्यू चर करते हैं)।
ttnphns

नीचे दिए गए उत्तर के अलावा कृपया इस एक को आगे के लिंक से देखें।
ttnphns

जवाबों:


25

पीसीए या फैक्टर विश्लेषण के एक लोडिंग प्लॉट की व्याख्या।

लोड हो रहा है प्लॉट मुख्य घटकों (या कारकों) के स्थान में चर के रूप में दिखाता है। चर के निर्देशांक, आमतौर पर, लोडिंग हैं। (यदि आप ठीक से एक ही घटक स्थान में डेटा मामलों के संबंधित स्कैल्प्लॉट के साथ लोडिंग प्लॉट को जोड़ते हैं, तो वह बाइप्लॉट होगा।)

हमें 3 किसी भी तरह से सहसंबंधित चर, वी , डब्ल्यू , यू । हम उन्हें केंद्र में रखते हैं और पीसीए करते हैं , तीन में से 2 पहले प्रमुख घटकों को निकालते हैं: एफ 1 और एफ 2 । हम लोडिंग प्लॉट को नीचे करने के लिए निर्देशांक के रूप में लोडिंग का उपयोग करते हैं। लोडिंग अनजाइन्ड इजेनेवेटर्स एलीमेंट्स होते हैं, अर्थात संबंधित कंपोनेंट्स वेरिएंस, या ईजेनवेल्यूज से संपन्न आइजनवेक्टर।VWUF1F2

enter image description here

प्लॉट लोड हो रहा है चित्र पर विमान है। आइए केवल चर V पर विचार करें । तीर एक लोडिंग प्लाट पर आदतन खींचा जाता है जिसे यहाँ h लेबल किया जाता है; निर्देशांक एक 1 , एक 2 की लोडिंग कर रहे हैं वी के साथ एफ 1 और एफ 2 में क्रमश: (कृपया पता है कि terminologically कहते हैं "घटक लोड एक चर", इसका उल्टा नहीं अधिक सही है)।Vha1a2VF1F2

तीर ' प्रक्षेपण है, घटक विमान पर, वेक्टर के जो सच चर की स्थिति है वी चर में' द्वारा फैला अंतरिक्ष वी , डब्ल्यू , यू । वेक्टर की चौकोर लंबाई, h 2 , V का विचरण है । जबकि ' 2 है कि विचरण के भाग समझाया दो घटकों द्वारा।hhVVWUh2aVh2

लोड हो रहा है, सहसंबंध, अनुमानित सहसंबंध । के बाद से चर, घटकों के पूर्व निकासी केंद्रित थे क्योंकि φ है पियर्सन सहसंबंध के बीच वी और घटक एफ 1 । लोडिंग प्लॉट पर कॉस α के साथ भ्रमित नहीं होना चाहिए , जो कि एक और मात्रा है: यह घटक एफ 1 और चर के बीच पियरसन सहसंबंध है जिसे एच ′ के रूप में यहां जोड़ा गया है । एक चर के रूप में, ' की भविष्यवाणी है वी रेखीय प्रतीपगमन में (मानकीकृत) घटकों द्वारा (रेखीय प्रतीपगमन ज्यामिति के ड्राइंग के साथ तुलना करें यहाँcosϕVF1cosαF1hhV) जहां लोडिंग एक प्रतिगमन गुणांक है (जब घटकों को ऑर्थोगोनल रखा जाता है, जैसा कि निकाला जाता है)।a

आगे की। हमें याद कर सकते हैं (त्रिकोणमिति) है कि एक 1 = क्योंकि φ । यह रूप में समझा जा सकता है अदिश उत्पाद वेक्टर के बीच वी और यूनिट-लंबाई वेक्टर एफ 1 : 1 क्योंकि φएफ 1 कि यूनिट-विचरण वेक्टर सेट किया गया है, क्योंकि इसका कोई अपनी है खुद की है कि विचरण से अलग विचरण वी जो यह बताते हैं (राशि से ' ): यानी एफ 1a1=hcosϕVF1h1cosϕF1VhF1एक एक्सट्रैक्टेड-वी, डब्ल्यू, यू और न कि एक आमंत्रित-से-बाहर की इकाई है। फिर, स्पष्ट रूप से, एक 1 = वी एक आर वीवी एक आर एफ 1आर=1क्योंकिφहैसहप्रसरणके बीचवीऔरमानकीकृत, इकाई बढ़ायासेट करने के लिए (रों1=a1=varVvarF1r=h1cosϕVbv a r F 1 =1) घटकF1। यह सहसंयोजक सीधे इनपुट चर के बीच सहसंयोजकों के साथ तुलनीय है; उदाहरण के लिए,वीऔरडब्ल्यू केबीच सहसंयोजकउनके बीच की कोज्या से गुणा उनकी वेक्टर लंबाई का उत्पाद होगा।s1=varF1=1F1VW

सारांश में: लोड हो रहा है एक 1 मानकीकृत घटक और देखे गए चर, के बीच सहप्रसरण के रूप में देखा जा सकता है 1 क्योंकि φ , या समतुल्य रूप मानकीकृत घटक और समझाया (सभी घटकों साजिश को परिभाषित करते हुए) के बीच की छवि चर, '1 क्योंकि α । यही कारण है कि क्योंकि α कहा जा सकता है वि एफ 1 सहसंबंध अनुमान एफ 1-F2 घटक उपस्पेस पर।a1h1cosϕh1cosαcosα

एक चर और एक घटक, के बीच उक्त सहसंबंध क्योंकि φ = एक 1 / घंटा , यह भी मानकीकृत या कहा जाता है पुनः पैमाना लोड हो रहा है । यह घटकों की व्याख्या में सुविधाजनक है क्योंकि यह सीमा [-1,1] में है।cosϕ=a1/h

आइजनवेक्टरों से संबंध । पुनः पैमाना लोड हो रहा है क्योंकि φ चाहिए नहीं के साथ भ्रमित होने आइजन्वेक्टर तत्व है जो - जैसा कि हम जानते - एक चर और एक प्रमुख घटक के बीच के कोण की कोज्या है। स्मरण करो कि लोडिंग eigenvector तत्व घटक के एकवचन मूल्य (eigenvalue के वर्गमूल) द्वारा बढ़ाया जाता है। चर के लिए यानी वी हमारे साजिश की: एक 1 = 1 रों 1 , जहां एस 1 सेंट है। विचलन (नहीं 1 की लेकिन मूल अर्थात विलक्षण मूल्य) एफ 1cosϕVa1=e1s1s11F1अव्यक्त चर। तो यह है कि आइजन्वेक्टर तत्व आता है 1 = एक 1s 1 =एचरों 1 क्योंकिφ, नहींक्योंकिφही। दो शब्दों "कोज्या" घुल आसपास भ्रम जब हम याद करते हैं क्या अंतरिक्ष प्रतिनिधित्व की तरह हम में हैं। आइजन्वेक्टर मूल्यहैकोज्यारोटेशन के कोण केजनसंपर्क में धुरी के रूप में एक चर के। चर के रूप में अक्ष के रूप में घटक (उर्फ स्कैल्प्लॉट दृश्य),जैसे कि यहां। जबकिक्योंकिφहमारे लोड हो रहा है भूखंड परकोज्या समानता उपाय हैवेक्टर और एक जनसंपर्क के रूप में एक चर के बीच। घटक के रूप में ... अच्छी तरह से .. वेक्टर के रूप में भी, यदि आपको पसंद है (यद्यपि यह भूखंड पर अक्ष के रूप में तैयार किया गया है), - वर्तमान में हमविषय स्थान पर हैंe1=a1s1=hs1cosϕcosϕcosϕ (जो लोडिंग प्लॉट है) जहां सहसंबद्ध चर वैक्टर के प्रशंसक हैं - ऑर्थोगोनल एक्सिस नहीं हैं, - और वेक्टर कोण एसोसिएशन के माप हैं - और स्पेस बेस रोटेशन के नहीं।

जबकि लोडिंग एक वैरिएबल और यूनिट-स्केल वाले कंपोनेंट के बीच कोणीय (यानी स्केलर उत्पाद प्रकार) एसोसिएशन माप है, और रीकॉल्ड लोडिंग मानकीकृत लोडिंग है जहां वेरिएबल का स्केल या तो यूनिट तक कम हो जाता है, लेकिन आइजनवेक्टर गुणांक लोड हो रहा है जहां घटक "ओवरस्टैंडाइज़्ड" है, अर्थात 1 / s (1 के बजाय) पैमाने पर लाया गया था ; वैकल्पिक रूप से, इसे एक रीकल्ड लोडिंग के रूप में माना जा सकता है जहां चर का पैमाना h / s (1 के बजाय) लाया गया था ।1/sh/s

तो, एक चर और एक घटक के बीच क्या संबंध हैं ? आप जो चाहें उसे चुन सकते हैं। यह लोड हो सकता है (इकाई स्केल वाले घटक के साथ सहसंयोजक) ; पुनः पैमाना लोड हो रहा है क्योंकि φ (= चर-घटक सहसंबंध); के बीच संबंध छवि (भविष्यवाणी) और घटक (= सहसंबंध अनुमान क्योंकि α )। तुम भी चुन सकते हैं आइजन्वेक्टर गुणांक = एक / s अगर आप की जरूरत है (हालांकि मुझे आश्चर्य है कि क्या एक कारण हो सकता है)। या अपने खुद के उपाय का आविष्कार करें।a cosϕcosαe=a/s

Eigenvector मान चुकता एक चर में एक पीआर के योगदान का अर्थ है। घटक। पुनर्गठित लोडिंग वर्ग में एक पीआर के योगदान का अर्थ है। एक चर में घटक।

सहसंबंधों के आधार पर पीसीए से संबंध। यदि हम PCA-विश्लेषित न केवल केन्द्रित बल्कि मानकीकृत (तब यूनिट-वैरिएबल स्केल्ड) वेरिएबल्स को केन्द्रित करते हैं, तो तीन वैरिएबल वैक्टर (प्लेन पर उनके अनुमान नहीं) एक ही, यूनिट की लंबाई के होंगे। फिर यह स्वचालित रूप से इस प्रकार है कि एक लोडिंग सहसंबंध है , एक चर और घटक के बीच सहसंयोजक नहीं। लेकिन उस सहसंबंध नहीं होगा "मानकीकृत लोड हो रहा है" के बराबर क्योंकि φ की , ऊपर चित्र (सिर्फ केंद्रित चर के विश्लेषण के आधार पर), क्योंकि मानकीकृत चर के पीसीए (सह-संबंध के आधार पर पीसीए) पैदावार विभिन्न केंद्रित चर के पीसीए (से घटकों covariances- आधारित पीसीए)। सहसंबंध आधारित पीसीए में एक 1cosϕ = क्योंकि φ क्योंकि= 1 , लेकिन प्रिंसिपल घटक हैंउन्हीं नहींप्रिंसिपल घटक के रूप में हम से सहप्रसरण आधारित पीसीए मिल (पढ़ें,पढ़)।a1=cosϕh=1

में कारक विश्लेषण , लोड हो रहा है साजिश मूलतः एक ही अवधारणा और पीसीए के रूप में व्याख्या की है। केवल (लेकिन महत्वपूर्ण ) अंतर का पदार्थ है ' । कारक विश्लेषण में, ' - तो चर के "communality" कहा जाता है - अपने विचरण वाले हिस्से की द्वारा समझाया गया है है आम कारण जो विशेष रूप से के लिए जिम्मेदार हैं सहसंबंध चर के बीच में। पीसीए में रहते हुए समझाया भाग 'hh hस्थूल "मिश्रण" है - यह आंशिक रूप से सहसंबंध का प्रतिनिधित्व करता है और आंशिक रूप से चरों के बीच असंबंधित है। कारक विश्लेषण के साथ, हमारी तस्वीर पर लोडिंग का विमान अलग-अलग रूप से उन्मुख होगा (वास्तव में, यह हमारे 3 डी चर के स्थान को 4 वें आयाम में भी विस्तारित करेगा, जिसे हम आकर्षित नहीं कर सकते हैं; लोडिंग विमान हमारा एक उप-समूह नहीं होगा; 3 डी अंतरिक्ष से फैला वी और अन्य दो चर), और प्रक्षेपण ' एक और लंबाई की और एक अन्य कोण के साथ हो जाएगा α । (पीसीए और कारक विश्लेषण के बीच सैद्धांतिक अंतर को ज्यामितीय रूप से यहां विषय स्थान प्रतिनिधित्व के माध्यम से और यहां चर अंतरिक्ष प्रतिनिधित्व के माध्यम से समझाया गया है ।)Vhα


a , b टिप्पणियों में @Antoni Parellada के अनुरोध का उत्तर। यह आप के मामले में बात करने के लिए पसंद करते हैं बराबर हैविचरणया के मामले मेंबिखराव(विचलन के एस एस): विचरण = बिखराव / (n-1), जहांnनमूने का आकार है। क्योंकि हम एक हीएन केसाथ एक डेटासेट के साथ काम कर रहे हैं, निरंतर सूत्रों में कुछ भी नहीं बदलता है। यदिएक्सडेटा है (चर वी के साथ, डब्ल्यू, यू केंद्रित), तो इसकी (ए) के eigendecomposition सहप्रसरण मैट्रिक्स (बी) बिखराव मैट्रिक्स के eigendecomposition रूप में एक ही eigenvalues (घटक प्रसरण) और eigenvectors पैदावार एक्स ' एक्सa,b/(n1)nnXXXकी प्रारंभिक विभाजन के बाद प्राप्त एक्स द्वारा Xएन - 1 कारक। उसके बाद, एक लोडिंग के सूत्र में (उत्तर के बीच अनुभाग देखें),एक1=रों1क्योंकिφ, अवधिहैसेंट। विचलनn1a1=hs1cosϕh वी एक आर वी (ए) लेकिन जड़ बिखराव (यानी आदर्श) मेंवी(बी) में। टर्मरों1है, जो बराबर होती है1,हैमानकीकृतएफ1घटक के सेंट। विचलनvarVVs11F1वी एक आर एफ 1 में (ए) लेकिन जड़ बिखरावएफ1में (बी)। अंत में,क्योंकिφ=आरसहसंबंध जो हैअसंवेदनशील हैके उपयोग करने के लिएn-1अपनी गणना में। इस प्रकार, हम केवलवैरिएशन (ए) या स्कैटर (बी) के वैचारिक रूप सेबोलते हैं, जबकि मूल्य स्वयं दोनों उदाहरणों में सूत्र में समान रहते हैं।varF1F1cosϕ=rn1


यह उत्तर बहुत अच्छा है और बहुत सी जानकारी है, लेकिन मुझे लगता है कि प्रश्न का वास्तविक उत्तर "क्या α का अर्थ है" में निहित होगा? α
छायाकार

@ssdecontrol, मैंने इसके बारे में एक पंक्ति जोड़ी।
tnnphns

मैं इस विषय पर आपकी पोस्ट पढ़ रहा हूं, और जब आप कहते हैं कि मैं सबसे स्पष्ट रूप से अटका हुआ हूं, तो ... "स्पष्ट रूप से, एक 1 = postsवी एक आर वीवी एक आर एफ 1आर=1क्योंकिφ। के बाद सेआर=रोंφऔरa1=varVvarF1r=h1cosϕr=cosϕवी एक आर एफ 1 =1, यह इस प्रकार है किvarF1=1v a r V =h। हालांकि,=वी=varV=hΣ x 2 , जबकिh=V=x2v a r V =x एन - 1 । मुझे किसकी याद आ रही है? varV=x2n1
एंटोनी परेलाडा

1
@AntoniParellada, कृपया फुटनोट की जाँच करें।
ttnphns

1
मैंने आपका परिशिष्ट पढ़ा, और यह बहुत ही रोशन करने वाला है। धन्यवाद! विशिष्ट वाक्यों को चुनने के बिना, यह उत्तर के साथ F 1 के यूनिट-वैरिएंट से यूनिट नॉर्म्स स्केलिंग तक के कुछ बदलावों की व्याख्या करेगा , जो पहले कुछ कठिनाई (मेरे लिए) प्रस्तुत करता था। F1
एंटोनी परेलाडा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.