पीसीए और अनुपात के विचरण को समझाया


90

सामान्य तौर पर, यह कहने का क्या मतलब है कि पीसीए जैसे विश्लेषण में भिन्नता का अंश पहले प्रमुख घटक द्वारा समझाया गया है? क्या कोई इसे सहज रूप से समझा सकता है, लेकिन प्रमुख घटक विश्लेषण (पीसीए) के संदर्भ में "विचरण समझाया" का एक सटीक गणितीय परिभाषा दे सकता है?x

सरल रैखिक प्रतिगमन के लिए, सबसे अच्छी फिट रेखा के आर-स्क्वेर को हमेशा समझाया गया अनुपात के अनुपात के रूप में वर्णित किया जाता है, लेकिन मुझे यकीन नहीं है कि या तो क्या बनाना है। क्या यहाँ विचरण का अनुपात सबसे अच्छी रेखा से बिंदुओं के विचलन का विस्तार है?


जवाबों:


103

पीसीए के मामले में, "विचरण" का अर्थ है योगात्मक विचरण या बहुभिन्नरूपी परिवर्तनशीलता या समग्र परिवर्तनशीलता या कुल परिवर्तनशीलता । नीचे कुछ 3 चर का सहसंयोजक मैट्रिक्स है। उनके संस्करण विकर्ण पर हैं, और 3 मानों (3.448) का योग समग्र परिवर्तनशीलता है।

   1.343730519   -.160152268    .186470243 
   -.160152268    .619205620   -.126684273 
    .186470243   -.126684273   1.485549631

अब, पीसीए मूल चर को नए चर के साथ बदल देता है, जिसे प्रमुख घटक कहा जाता है, जो कि ऑर्थोगोनल (अर्थात उनके पास शून्य संकेतन होते हैं) और घटते क्रम में variances (eigenvalues) होते हैं। तो, उपरोक्त डेटा से निकाले गए प्रमुख घटकों के बीच सहसंयोजक मैट्रिक्स यह है:

   1.651354285    .000000000    .000000000 
    .000000000   1.220288343    .000000000 
    .000000000    .000000000    .576843142

ध्यान दें कि विकर्ण योग अभी भी 3.448 है, जो कहता है कि सभी 3 घटक सभी बहुभिन्नरूपी परिवर्तनशीलता के लिए खाते हैं। 1 मुख्य घटक के लिए या "बताते हैं" 1.651 / 3.448 = 47.9% की कुल परिवर्तनशीलता; दूसरा व्यक्ति 1.220 / 3.448 = 35.4% बताता है; 3 एक बताते हैं .577 / 3.448 = 16.7%।

तो, उनका क्या मतलब है जब वे कहते हैं कि " PCA विचरण को अधिकतम करता है " या " PCA अधिकतम विचरण को स्पष्ट करता है "? बेशक, यह नहीं है कि यह तीन मूल्यों के बीच सबसे बड़ा विचरण ढूंढता है 1.343730519 .619205620 1.485549631, नहीं। पीसीए पाता है, डेटा स्पेस में, समग्र विचरण से बाहर सबसे बड़े विचरण के साथ आयाम (दिशा) । यह सबसे बड़ा विचरण होगा । फिर यह दूसरे सबसे बड़े विचरण के आयाम को पाता है, पहले समग्र को, शेष समग्र विचरण से बाहर । यह दूसरा आयाम विचरण होगा । और इसी तरह। अंतिम शेष आयाम विचरण है। यहां भी "Pt3" और यहां देखें शानदार जवाब1.343730519+.619205620+1.485549631 = 3.4481.6513542853.448-1.6513542851.220288343.576843142 यह बताते हुए कि इसने और अधिक विस्तार से कैसे किया।

गणितीय रूप से, PCA को रेखीय बीजगणित कार्यों के माध्यम से किया जाता है जिसे eigen-decomposition या svd- अपघटन कहा जाता है। ये फ़ंक्शन आपको एक ही बार में सभी eigenvalues 1.651354285 1.220288343 .576843142(और संबंधित eigenvectors) वापस कर देंगे ( देखें , देखें )।


1
आपका क्या मतलब है: "ध्यान दें कि विकर्ण योग अभी भी 3.448 है, जो कहता है कि सभी 3 घटक सभी बहुभिन्नरूपी परिवर्तनशीलता के लिए खाते हैं" और आपकी विधि और पीओवी (भिन्नता का अनुपात) के बीच क्या अंतर है?
कामेसी

2
मैं किसी भी "विधि" का सुझाव नहीं देता। मैंने अभी-अभी समझाया कि सभी पीसी एक ही कुल परिवर्तनशीलता के लिए खाते हैं जैसा कि मूल चर करते हैं।
tnnphns 12

क्या आप मेरे प्रश्न की जांच कर सकते हैं: आंकड़े.stackexchange.com/questions/44464/…
kamaci

मुझे क्षमा करें :-( मैं वर्तमान में नहीं कर सकता। ट्यून करने के लिए बहुत सारी टिप्पणियां हैं।
ttnphns

1
यदि आप प्रश्न को पढ़ते हैं तो यह पर्याप्त है। टिप्पणियों पर कुछ भी नहीं है।
कामेसी

11

@ttnphns ने एक अच्छा जवाब दिया है, शायद मैं कुछ बिंदु जोड़ सकता हूं। सबसे पहले, मैं यह बताना चाहता हूं कि सीवी पर एक प्रासंगिक सवाल था , वास्तव में मजबूत जवाब के साथ- आप निश्चित रूप से इसकी जांच करना चाहते हैं। इस प्रकार, मैं उस उत्तर में दिखाए गए भूखंडों का उल्लेख करूंगा।

सभी तीन भूखंड एक ही डेटा प्रदर्शित करते हैं। ध्यान दें कि लंबवत और क्षैतिज रूप से डेटा में परिवर्तनशीलता है, लेकिन हम वास्तव में विकर्ण होने के रूप में अधिकांश परिवर्तनशीलता के बारे में सोच सकते हैं । तीसरे प्लॉट में, वह लंबी काली विकर्ण रेखा पहली ईजेनवेक्टर (या पहला सिद्धांत घटक) है, और उस सिद्धांत घटक की लंबाई (उस रेखा के साथ डेटा का प्रसार - वास्तव में लाइन की लंबाई ही नहीं है, जो बस भूखंड पर तैयार किया गया है) पहला ईजेंवल है- यह पहले सिद्धांत घटक के हिसाब से विचरण की मात्रा है। यदि आप दूसरे सिद्धांत घटक की लंबाई के साथ उस लंबाई को जोड़ते थे (जो कि विकर्ण रेखा से डेटा के प्रसार की चौड़ाई है), और फिर उस कुल में से किसी भी आइजेनवल को विभाजित किया गया, तो आपको प्रतिशत मिलेगा इसी सिद्धांत घटक के हिसाब से विचरण का।

दूसरी ओर, प्रतिगमन में हिसाब किए गए विचरण के प्रतिशत को समझने के लिए, आप शीर्ष प्लॉट पर देख सकते हैं। उस स्थिति में, लाल रेखा प्रतिगमन रेखा है, या मॉडल से अनुमानित मूल्यों का सेट है। विचरण को समझाया गया प्रतिगमन रेखा के ऊर्ध्वाधर प्रसार के अनुपात के रूप में समझा जा सकता है (यानी, लाइन पर सबसे कम बिंदु से लाइन के उच्चतम बिंदु तक) डेटा के ऊर्ध्वाधर प्रसार (यानी, सबसे कम डेटा बिंदु से) उच्चतम डेटा बिंदु पर)। बेशक, यह केवल एक ढीला विचार है, क्योंकि शाब्दिक रूप से वे रेंज हैं, न कि संस्करण, लेकिन यह आपको बिंदु पाने में मदद करनी चाहिए।

प्रश्न अवश्य पढ़ें। और, हालांकि मैंने शीर्ष उत्तर को संदर्भित किया है, दिए गए उत्तरों में से कई उत्कृष्ट हैं। उन सभी को पढ़ने के लिए आपके समय की कीमत है।


3

मूल प्रश्न का बहुत सरल, सीधा और सटीक गणितीय उत्तर है।

Y1Y2YpRi2

a1a2apPC1=a1Y1+a2Y2++apYpi=1pRi2(Yi|PC1)

इस अर्थ में, आप पहले पीसी को "विचरण को समझाया," या अधिक सटीक रूप से व्याख्या कर सकते हैं, "कुल विचरण की एक अधिकतम व्याख्या।"

bi=c×aic0

मूल साहित्य और एक्सटेंशन के संदर्भ के लिए, देखें

वेस्टफॉल, पीएच, एरियस, एएल, और फुल्टन, एलवी (2017)। सहसंबंधों का उपयोग करते हुए प्रमुख घटक शिक्षण, बहुभिन्नरूपी व्यवहार अनुसंधान, 52, 648-660।


0

बारे में सोचेंY=A+BYABYABYABvar(Y)=var(A)+var(B)+2cov(A,B)Ab0+b1XBeY=b0+b1X+eYb0+b1X

Y


आपको वाई के विचरण के लिए अपने सूत्र की जांच करनी चाहिए: यह सही नहीं है। इससे भी महत्वपूर्ण बात यह है कि, एक प्रतिगमन स्पष्टीकरण का प्रयास पीसीए को सही ढंग से चिह्नित नहीं करता है और न ही उन तरीकों के बारे में जो लोग इसके बारे में सोचते हैं और इसका उपयोग करते हैं।
whuber

1
Ty, सूत्र में निश्चित त्रुटि। मेरा उत्तर प्रतिगमन रेखा द्वारा समझाया गया विचरण के अनुपात के संबंध में प्रश्न के दूसरे भाग के लिए है।
युवा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.