ओ 'रेली की "मशीन लर्निंग फॉर हैकर्स" का कहना है कि प्रत्येक प्रमुख घटक विचरण के प्रतिशत का प्रतिनिधित्व करता है। मैंने नीचे पृष्ठ का प्रासंगिक भाग उद्धृत किया है (अध्याय 8, पृष्ठ 207)। एक अन्य विशेषज्ञ से बात करते हुए, उन्होंने माना कि यह प्रतिशत है।
हालांकि 24 घटक 133.2095% तक है। ऐसे कैसे हो सकता है?
अपने आप को आश्वस्त करने के बाद कि हम पीसीए का उपयोग कर सकते हैं, हम आर में कैसे करते हैं? फिर, यह एक ऐसी जगह है जहां R चमकता है: PCA की संपूर्णता कोड की एक पंक्ति में की जा सकती है। हम पीसीए को चलाने के लिए प्रिंसिपल फ़ंक्शन का उपयोग करते हैं:
pca <- princomp(date.stock.matrix[,2:ncol(date.stock.matrix)])
यदि हम R में केवल pca टाइप करते हैं, तो हम मुख्य घटकों का एक त्वरित सारांश देखेंगे:
Call: princomp(x = date.stock.matrix[, 2:ncol(date.stock.matrix)]) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 29.1001249 20.4403404 12.6726924 11.4636450 8.4963820 8.1969345 5.5438308 Comp.8 Comp.9 Comp.10 Comp.11 Comp.12 Comp.13 Comp.14 5.1300931 4.7786752 4.2575099 3.3050931 2.6197715 2.4986181 2.1746125 Comp.15 Comp.16 Comp.17 Comp.18 Comp.19 Comp.20 Comp.21 1.9469475 1.8706240 1.6984043 1.6344116 1.2327471 1.1280913 0.9877634 Comp.22 Comp.23 Comp.24 0.8583681 0.7390626 0.4347983 24 variables and 2366 observations.
इस सारांश में, मानक विचलन हमें बताते हैं कि विभिन्न मुख्य घटकों द्वारा डेटा सेट में कितने प्रकार का परिवर्तन होता है। पहला घटक, जिसे Comp.1 कहा जाता है, 29% विचरण का खाता है, जबकि दूसरा घटक 20% है। अंत तक, अंतिम घटक, Comp.24, विचरण के 1% से कम के लिए जिम्मेदार है। इससे पता चलता है कि हम अपने डेटा के बारे में बहुत कुछ सीख सकते हैं।
[कोड और डेटा गितुब पर पाया जा सकता है ।]
R
सॉफ्टवेयर को संदर्भित करने के लिए "बग" लिया । उस त्रुटि को पकड़ना एक अच्छी पकड़ थी (मुझे आशा है कि आपको यह पता लगाना फायदेमंद होगा कि पीसीए के साथ वास्तव में क्या हो रहा है)!
Standard deviations
थोड़ी दूर है। चूंकि मानक विचलन वास्तव में मानक विचलन हैं, इसलिए हमें उन्हें यह देखने के लिए वर्गाकार करना चाहिए कि प्रत्येक घटक कितना भिन्नता का प्रतिनिधित्व करता है। पहला घटक कुल विचरण के प्रतिशत का प्रतिनिधित्व करेगा ।