प्रधान घटक विश्लेषण मैट्रिक्स अपघटन का उपयोग कर सकते हैं , लेकिन यह वहां पहुंचने के लिए सिर्फ एक उपकरण है।
आप मैट्रिक्स बीजगणित के उपयोग के बिना प्रमुख घटक कैसे पाएंगे?
उद्देश्य फ़ंक्शन (लक्ष्य) क्या है, और क्या बाधाएं हैं?
प्रधान घटक विश्लेषण मैट्रिक्स अपघटन का उपयोग कर सकते हैं , लेकिन यह वहां पहुंचने के लिए सिर्फ एक उपकरण है।
आप मैट्रिक्स बीजगणित के उपयोग के बिना प्रमुख घटक कैसे पाएंगे?
उद्देश्य फ़ंक्शन (लक्ष्य) क्या है, और क्या बाधाएं हैं?
जवाबों:
, पीसीए पर एक पूर्ण प्राइमर देने के लिए कोशिश कर रहा एक अनुकूलन के दृष्टिकोण से बिना, प्राथमिक उद्देश्य समारोह है रेले भागफल । मैट्रिक्स जो कि भागफल में होता है, वह नमूना मैट्रिक्स जहां प्रत्येक सुविधाओं का एक वेक्टर है और मैट्रिक्स है जैसे कि th पंक्ति ।एक्समैंपीएक्समैंएक्स T मैं
पीसीए अनुकूलन समस्याओं के अनुक्रम को हल करना चाहता है। इस क्रम में पहला है असंबंधित समस्या
चूँकि, उपरोक्त असंबंधित समस्या विवश समस्या के बराबर है
यहाँ जहां मैट्रिक्स बीजगणित में आता है। के बाद से यह फार्म की एक eigenvalue अपघटन है एक सममित सकारात्मक semidefinite मैट्रिक्स है (निर्माण द्वारा!) जहां एक है ऑर्थोगोनल मैट्रिक्स (so ) और एक विकर्ण मैट्रिक्स है जिसमें प्रविष्टियाँ जैसे कि ।
इसलिए, । चूँकि समस्या में एक के मानदंड के लिए विवश है, तो इसलिए बाद से , के आधार ओर्थोगोनल जा रहा है।
लेकिन, यदि हम अड़चन के तहत मात्रा को अधिकतम करना चाहते हैं, तो , तो सबसे अच्छा हम कर सकते हैं। set , जो है, और for ।
अब, संबंधित समर्थन करते हुए , जो हमने पहले स्थान पर खोजा था, हम उस जहां के पहले कॉलम को दर्शाता है , अर्थात, सबसे बड़ा eigenvalue of अनुरूप है । उद्देश्य फ़ंक्शन का मान तब आसानी से को भी देखा जाता है ।
शेष प्रमुख घटक वैक्टर अनुकूलन की समस्याओं के अनुक्रम ( द्वारा अनुक्रमित ) को हल करके पाए जाते हैं तो, समस्या समान है, सिवाय इसके कि हम अतिरिक्त अवरोध जोड़ते हैं कि समाधान को अनुक्रम में पिछले सभी समाधानों के लिए रूढ़िवादी होना चाहिए । यह दिखाने के लिए कि समस्या का समाधान है, वास्तव में उपर्युक्त तर्क को विस्तारित करना मुश्किल नहीं है, वास्तव में, , का th eigenvector है ।
PCA समाधान को अक्सर के एकवचन मान अपघटन के रूप में भी व्यक्त किया जाता है । क्यों देखने के लिए, चलो । फिर और so (सख्ती से बोलना, साइन अप करना) और ।
प्रिंसिपल कंपोनेंट मुख्य घटक वैक्टर पर प्रोजेक्ट करके पाए जाते हैं । केवल दिए गए SVD फॉर्मूलेशन से, यह देखना आसान है कि
विशेषताओं के मैट्रिक्स के SVD के संदर्भ में प्रमुख घटक वैक्टर और स्वयं प्रमुख घटकों दोनों के प्रतिनिधित्व की सादगी एक कारण है, जिससे SVD पीसीए के कुछ उपचारों में प्रमुखता से शामिल है।
कार्डिनल द्वारा प्रस्तुत समाधान नमूना सहसंयोजक मैट्रिक्स पर केंद्रित है। एक अन्य प्रारंभिक बिंदु एक q -dimensional हाइपरप्लेन द्वारा डेटा का पुनर्निर्माण त्रुटि है । यदि p -dimensional डेटा बिंदु उद्देश्य हल करना है
एक के लिए मैट्रिक्स orthonormal कॉलम और साथ । यह यूक्लिडियन मानदंड द्वारा मापा गया सबसे अच्छा रैंक q -reconstruction देता है, और समाधान के कॉलम पहले q प्रमुख घटक वैक्टर हैं।
नियत लिए और (यह प्रतिगमन है) के लिए समाधान
अंकन में आसानी के लिए मान हैं कि को निम्न में केन्द्रित किया गया है। फिर हमें कम से कम करना होगा
orthonormal कॉलम के साथ over । ध्यान दें कि है प्रक्षेपण पर क्ष आयामी स्तंभ अंतरिक्ष। इसलिए समस्या को कम करने के बराबर है।
से अधिक रैंक क्ष अनुमानों । यही है, हमें अधिकतम करने की आवश्यकता है।
रैंक q अनुमानों से अधिक , जहां नमूना सहसंयोजक मैट्रिक्स है। अभी
पुनर्निर्माण त्रुटि, कई उपयोगी सामान्यीकरणों का सुझाव देती है, उदाहरण के लिए हाइपरप्लेन के बजाय कम-आयामी मैनिफोल्ड्स द्वारा विरल प्रमुख घटक या पुनर्निर्माण। जानकारी के लिए, सांख्यिकीय सीखने के तत्वों में धारा 14.5 देखें ।