एक प्रमुख घटक विश्लेषण के आउटपुट से निष्कर्ष

9

मैं मूल घटक विश्लेषण के आउटपुट को समझने की कोशिश कर रहा हूं जो निम्न प्रकार से किया गया है:

> head(iris)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa
> res = prcomp(iris[1:4], scale=T)
> res
Standard deviations:
[1] 1.7083611 0.9560494 0.3830886 0.1439265

Rotation:
                    PC1         PC2        PC3        PC4
Sepal.Length  0.5210659 -0.37741762  0.7195664  0.2612863
Sepal.Width  -0.2693474 -0.92329566 -0.2443818 -0.1235096
Petal.Length  0.5804131 -0.02449161 -0.1421264 -0.8014492
Petal.Width   0.5648565 -0.06694199 -0.6342727  0.5235971
> 
> summary(res)
Importance of components:
                          PC1    PC2     PC3     PC4
Standard deviation     1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion  0.7296 0.9581 0.99482 1.00000
>

मैं उपरोक्त आउटपुट से निम्नलिखित निष्कर्ष निकालता हूं:

विचरण का अनुपात बताता है कि किसी विशेष प्रमुख घटक के विचरण में कुल विचरण का कितना हिस्सा है। इसलिए, PC1 परिवर्तनशीलता डेटा के कुल विचरण का 73% बताती है।
दिखाए गए रोटेशन मान कुछ विवरणों में उल्लिखित 'लोडिंग' के समान हैं।
PC1 के घूर्णन को ध्यान में रखते हुए, कोई भी निष्कर्ष निकाल सकता है कि Sepal.Length, Petal.Length और Petal.Width सीधे संबंधित हैं, और वे सभी Sepal.Width से विपरीत हैं (जिसका PC1 के रोटेशन में नकारात्मक मान है)
पौधों में एक कारक हो सकता है (कुछ रासायनिक / भौतिक कार्यात्मक प्रणाली आदि) जो इन सभी चर (सेपल.लिवेट, पेटल.लिविएंट और पेटल। एक दिशा में और सेपल.विपरीत दिशा में) को प्रभावित कर रहे हैं।
यदि मैं सभी ग्राफ को एक ग्राफ में दिखाना चाहता हूं, तो मैं उस मुख्य घटक के विचरण के अनुपात से प्रत्येक घुमाव को गुणा करके उनके सापेक्ष योगदान को दिखा सकता हूं। उदाहरण के लिए, PC1 के लिए, 0.52, -0.26, 0.58 और 0.56 के घुमाव सभी को 0.73 से गुणा किया जाता है (PC1 के लिए आनुपातिक विचलन, सारांश (Res) आउटपुट में दिखाया गया है।

क्या मैं उपर्युक्त निष्कर्षों के बारे में सही हूं?

प्रश्न 5 के बारे में संपादित करें: मैं एक साधारण बारचार्ट में सभी रोटेशन को निम्नानुसार दिखाना चाहता हूं: यहाँ छवि विवरण दर्ज करें

चूंकि PC2, PC3 और PC4 का उत्तरोत्तर भिन्नता में कम योगदान है, क्या इससे वहां के चरों के लोडिंग को समायोजित (कम) करने का कोई मतलब होगा?

r pca interpretation

— rnso
स्रोत

पुन: (5): जिसे आप "लोडिंग" कहते हैं, वह वास्तव में लोडिंग नहीं है, लेकिन सहसंयोजक मैट्रिक्स के आइजनवेक्टर, उर्फ प्रिंसिपल दिशा, उर्फ प्रिंसिपल एक्सिस हैं। "लोडिंग" उनके स्वदेशी वर्ग के मूल जड़ों से गुणा किए गए यज्ञवेक्टर हैं, अर्थात व्याख्या किए गए गठबंधन के अनुपात के वर्गमूल द्वारा। लोडिंग में कई अच्छे गुण होते हैं और व्याख्या के लिए उपयोगी होते हैं, उदाहरण के लिए देखें यह धागा: पीसीए में लोडिंग बनाम ईजेनवेक्टर: एक या दूसरे का उपयोग कब करें? तो हाँ, यह बहुत मायने रखता है अपने eigenvectors को स्केल करने के लिए, बस समझाया विचरण के वर्गमूल का उपयोग करें।

— अमीबा

@amoeba: PCA, घुमाव या लोडिंग के द्विप्लव में क्या लिखा है?

— rnso

सबसे अधिक बार लोडिंग प्लॉट किए जाते हैं, आगे की चर्चा के लिए मेरा उत्तर देखें ।

— अमीबा

9

हाँ। यह सही व्याख्या है।
हां, रोटेशन मान घटक लोडिंग मानों का संकेत देते हैं। यह prcomp दस्तावेज़ीकरण द्वारा पुष्टि की गई है , हालांकि मुझे यकीन नहीं है कि वे पहलू "रोटेशन" के इस हिस्से को लेबल क्यों करते हैं, क्योंकि इसका मतलब है कि लोडिंग को कुछ ऑर्थोगोनल (संभावना) या तिरछी (कम संभावना) विधि का उपयोग करके घुमाया गया है।
हालांकि यह मामला प्रतीत होता है कि Sepal.Length, Petal.Length, और Petal.Width सभी सकारात्मक रूप से जुड़े हुए हैं, मैं PC1 पर Sepal.Width के छोटे नकारात्मक लोडिंग में उतना स्टॉक नहीं डालूंगा; यह पीसी 2 पर बहुत अधिक दृढ़ता से (लगभग विशेष रूप से) लोड करता है। स्पष्ट होने के लिए, Sepal.Wid अभी भी अन्य तीन चर के साथ नकारात्मक रूप से जुड़ा हुआ है, लेकिन यह सिर्फ पहले सिद्धांत घटक से दृढ़ता से संबंधित नहीं है।
इस सवाल के आधार पर, मुझे आश्चर्य है कि क्या आप सिद्धांत घटकों के विश्लेषण (पीसीपी) के बजाय एक सामान्य कारक (सीएफ) विश्लेषण का उपयोग करके बेहतर सेवा करेंगे। सीएफ एक उपयुक्त डेटा-कम करने वाली तकनीक से अधिक है जब आपका लक्ष्य सार्थक सैद्धांतिक आयामों को उजागर करना है - जैसे कि संयंत्र-कारक जिसे आप परिकल्पना कर रहे हैं, यह सेपल.लोमिट्री, पेटल.लॉग, और पेटल.विद को प्रभावित कर सकता है। मैं सराहना करता हूं कि आप किसी प्रकार के जैविक विज्ञान से हैं - वनस्पति विज्ञान शायद - लेकिन पीसीए डी। में मनोविज्ञान में कुछ अच्छा लेखन है। एफएबीगैर एट अल फैब्रिगेर एट अल।, 1999, विडमैन, 2007 और अन्य द्वारा। दोनों के बीच मुख्य अंतर यह है कि पीसीए मानता है कि सभी संस्करण सत्य-स्कोर भिन्नता हैं - कोई त्रुटि नहीं मानी जाती है - जबकि कारकों को निकाला जाता है और कारक लोडिंग का अनुमान लगाने से पहले सीएफ विभाजन त्रुटि संस्करण से वास्तविक स्कोर विचरण करता है। अंततः आपको एक समान दिखने वाला समाधान मिल सकता है - लोग कभी-कभी करते हैं - लेकिन जब वे विचलन करते हैं, तो यह मामला हो जाता है कि पीसीए लोडिंग मूल्यों को अधिक महत्व देता है, और घटकों के बीच सहसंबंधों को कम करके आंकता है। सीएफ दृष्टिकोण का एक अतिरिक्त प्रतिशत यह है कि आप लोडिंग मूल्यों के महत्व परीक्षण करने के लिए अधिकतम संभावना अनुमान का उपयोग कर सकते हैं, जबकि आपके चुने हुए समाधान के कुछ सूचकांक भी प्राप्त कर रहे हैं (1 कारक, 2 कारक, 3 कारक, या 4 कारक) आपके बारे में बताते हैं डेटा।
मैं कारक लोडिंग मानों को आपके संबंधित घटकों के लिए विचरण के अनुपात द्वारा उनकी पट्टियों को भारित किए बिना प्लॉट करूँगा। मैं समझता हूं कि आप इस तरह के दृष्टिकोण से क्या दिखाना चाहते हैं, लेकिन मुझे लगता है कि यह आपके विश्लेषण से घटक लोडिंग मूल्यों को गलत समझने के लिए पाठकों की ओर ले जाएगा। हालाँकि, यदि आप प्रत्येक घटक के हिसाब से विचरण के सापेक्ष परिमाण को दर्शाने का एक दृश्य तरीका चाहते हैं, तो आप समूह बार की अपारदर्शिता को हेरफेर करने पर विचार कर सकते हैं (यदि आप उपयोग कर रहे हैं ggplot2, तो मेरा मानना है कि यह किया गया हैalphaसौंदर्यशास्त्र), प्रत्येक घटक द्वारा समझाया गया विचरण के अनुपात के आधार पर (अर्थात, अधिक ठोस रंग = अधिक विचरण समझाया गया)। हालांकि, मेरे अनुभव में, आपका आंकड़ा एक पीसीए के परिणामों को पेश करने का एक विशिष्ट तरीका नहीं है - मुझे लगता है कि एक तालिका या दो (लोडिंग + विचरण एक में समझाया गया है, घटक सहसंबंध दूसरे में) बहुत अधिक सीधा होगा।

संदर्भ

फेब्रिगार, एलआर, वेगेनर, डीटी, मैकक्लम, आरसी, और स्ट्रहान, ईजे (1999)। मनोवैज्ञानिक अनुसंधान में खोजपूर्ण कारक विश्लेषण के उपयोग का मूल्यांकन। मनोवैज्ञानिक तरीके , 4 , 272-299।

विडमैन, केएफ (2007)। सामान्य कारक बनाम घटक: प्रधानाचार्य और सिद्धांत, त्रुटियां, और गलत धारणाएं । आर। कूडेक एंड आरसी मैकक्लम (ईडीएस) में, 100 पर फैक्टर विश्लेषण: ऐतिहासिक घटनाक्रम और भविष्य के निर्देश (पीपी। 177-203)। महवा, एनजे: लॉरेंस एर्लबम।

— jsakaluk
स्रोत

2

+1, यहाँ कई अच्छे बिंदु हैं। Re (2): सहसंयोजक मैट्रिक्स के eigenvectors को यहां "रोटेशन" कहा जाता है, क्योंकि पीसीए अनिवार्य रूप से समन्वय प्रणाली का एक रोटेशन है, जैसे कि नए निर्देशांक प्रणाली को eigenvectors के साथ गठबंधन किया गया है। इसका कारक विश्लेषण में "कारकों के ऑर्थोगोनल / तिरछे घुमाव" से कोई लेना-देना नहीं है। Re (5): मुझे यकीन नहीं है कि मैं समझता हूं कि आपका यहां क्या मतलब है, और मुझे यह भी समझ में नहीं आता है कि ओपी कैसे एक ग्राफ में "आइजनवेक्टर" दिखाना चाहता है। शायद ओपी के मन में एक द्विपद जैसा कुछ है। फिर हाँ, eigenvectors अक्सर eigenvalues द्वारा स्केल किए जाते हैं, लेकिन उनकी स्क्वायर जड़ों द्वारा।

— अमीबा 20

हालांकि आपके विषय के लिए अच्छा पुष्प-थीम वाला कथानक, @rnso :)

— jsakaluk

1

नहीं, डेटा का कुल विचरण नहीं। दिए गए डेटा का कुल संस्करण आप इसे 4 सिद्धांत घटकों में व्यक्त करना चाहते हैं। आप हमेशा अधिक सिद्धांत घटकों को जोड़कर अधिक कुल विचरण पा सकते हैं। लेकिन यह तेजी से घटता है।

— चपटी कील
स्रोत