मैं विषय (दोहरी) अंतरिक्ष में प्रमुख घटक विश्लेषण (पीसीए) कैसे काम करता है , इसकी सहज जानकारी प्राप्त करने की कोशिश कर रहा हूं ।
दो चर, के साथ 2 डी डाटासेट पर विचार करें और , और डेटा बिंदुओं (डेटा मैट्रिक्स है और केंद्रित हो माना जाता है)। पीसीए की सामान्य प्रस्तुति यह है कि हम में बिंदुओं पर विचार करते हैं , नीचे covariance मैट्रिक्स लिखते हैं , और इसके eigenvectors & eigenvalues पाते हैं; पहला पीसी अधिकतम विचरण की दिशा से मेल खाता है, आदि यहाँ सहसंयोजक मैट्रिक्स साथ एक उदाहरण है । लाल रेखाएं संबंधित प्रतिजन के वर्गमूलों द्वारा मापे गए आइजनवेक्टर दिखाती हैं।
अब विचार करें कि विषय स्थान में क्या होता है (मैंने यह शब्द @ttnphns से सीखा), जिसे दोहरे स्थान (मशीन लर्निंग में प्रयुक्त शब्द ) के रूप में भी जाना जाता है । यह एक -डायमेंशनल स्पेस है जहां हमारे दो वेरिएबल्स ( दो कॉलम ) के नमूने दो वैक्टर और । प्रत्येक चर वेक्टर की चुकता लंबाई इसके विचरण के बराबर होती है, दो वैक्टर के बीच के कोण का कोसाइन उनके बीच सहसंबंध के बराबर होता है। यह प्रतिनिधित्व, वैसे, कई प्रतिगमन के उपचार में बहुत मानक है। मेरे उदाहरण में, विषय स्थान ऐसा दिखता है (मैं केवल दो चर वैक्टर द्वारा छठे 2D विमान को दिखाता हूं):
प्रधान घटक, दो चर के रैखिक संयोजन होने के नाते, एक ही विमान में दो वैक्टर और । मेरा प्रश्न है: ऐसे भूखंड पर मूल चर वैक्टर का उपयोग करके मुख्य घटक चर वैक्टर बनाने के लिए ज्यामितीय समझ / अंतर्ज्ञान क्या है ? यह देखते हुए और , क्या ज्यामितीय प्रक्रिया प्राप्त होते हैं ?
नीचे इसकी वर्तमान आंशिक समझ है।
सबसे पहले, मैं मानक विधि के माध्यम से प्रमुख घटकों / अक्षों की गणना कर सकता हूं और उन्हें एक ही आकृति पर साजिश कर सकता हूं:
इसके अलावा, हम ध्यान दें कि को इस तरह चुना जाता है कि (नीली वैक्टर) और पर उनके अनुमानों के बीच वर्ग दूरी का योग न्यूनतम हो; उन दूरियों में पुनर्निर्माण की त्रुटियां हैं और उन्हें काले धराशायी लाइनों के साथ दिखाया गया है। समान रूप से, दोनों अनुमानों की चुकता लंबाई के योग को अधिकतम करता है। यह पूरी तरह से निर्दिष्ट और निश्चित रूप से प्राथमिक अंतरिक्ष में समान विवरण के लिए पूरी तरह से अनुरूप है ( प्रमुख घटक विश्लेषण, eigenvectors और eigenvalues की समझ बनाने के लिए मेरे जवाब में एनीमेशन देखें )। @ Ttnphns'es जवाब का पहला भाग भी यहाँ देखें ।
हालाँकि, यह पर्याप्त ज्यामितीय नहीं है! यह मुझे नहीं बताता कि ऐसे को कैसे खोजना है और इसकी लंबाई निर्दिष्ट नहीं है।
मेरा अनुमान है कि है , , , और एक अंडाकार पर सभी झूठ पर केन्द्रित के साथ और इसकी मुख्य कुल्हाड़ियों जा रहा है। यह मेरे उदाहरण में कैसा दिखता है:
Q1: कैसे साबित करने के लिए? प्रत्यक्ष बीजीय प्रदर्शन बहुत थकाऊ लगता है; कैसे देखना है कि यह मामला होना चाहिए?
लेकिन पर केन्द्रित और और से होकर गुजरने वाले कई अलग-अलग :x 1 x 2
Q2: क्या "सही" दीर्घवृत्त निर्दिष्ट करता है? मेरा पहला अनुमान था कि यह दीर्घ संभव मुख्य अक्ष के साथ दीर्घवृत्त है; लेकिन यह गलत प्रतीत होता है (किसी भी लम्बाई के मुख्य अक्ष के साथ दीर्घवृत्त होते हैं)।
यदि Q1 और Q2 के उत्तर हैं, तो मैं यह भी जानना चाहूंगा कि क्या वे दो से अधिक चर के मामले को सामान्य करते हैं।
variable space (I borrowed this term from ttnphns)
- @boeba, आपको गलत होना चाहिए। वैक्टर के रूप में वैरिएबल (मूल रूप से) एन-डायमेंशनल स्पेस को सब्जेक्ट स्पेस कहा जाता है (एन सब्जेक्ट्स ऐक्सिस "स्पेस" को पी वेरिएबल्स "स्पैन" कहते हैं)। वैरिएबल स्पेस , इसके विपरीत, रिवर्स - यानी सामान्य स्कैल्पप्लॉट है। यह है कि कैसे बहुभिन्नरूपी आँकड़ों में शब्दावली की स्थापना की जाती है। (यदि मशीन सीखने में यह अलग है - मुझे नहीं पता कि - तब सीखने वालों के लिए यह बहुत बुरा है।)
My guess is that x1, x2, p1, p2 all lie on one ellipse
यहाँ दीर्घवृत्त से विधिपूर्वक सहायता क्या हो सकती है? मुझे शक है।