प्रमुख घटक विश्लेषण (पीसीए) में, कोई भी घटकों को खोजने के लिए सहसंयोजक मैट्रिक्स या सहसंबंध मैट्रिक्स चुन सकता है (अपने संबंधित eigenvectors से)। ये अलग-अलग परिणाम (पीसी लोडिंग और स्कोर) देते हैं, क्योंकि दोनों मैट्रिसेस के बीच आइजनवेक्टर समान नहीं हैं। मेरी समझ यह है कि यह इस तथ्य के कारण होता है कि एक कच्चा डेटा वेक्टर और इसका मानकीकरण जेड एक ऑर्थोगोनल परिवर्तन के माध्यम से संबंधित नहीं हो सकता है। गणितीय रूप से, समान मेट्रिसेस (अर्थात ऑर्थोगोनल ट्रांसफॉर्मेशन से संबंधित) में एक ही आइजनवायुल्स होते हैं, लेकिन जरूरी नहीं कि एक ही आइजनवेक्टर हों।
यह मेरे मन में कुछ कठिनाइयों को जन्म देता है:
क्या पीसीए वास्तव में समझ में आता है, यदि आप एक ही शुरुआती डेटा सेट के लिए दो अलग-अलग उत्तर प्राप्त कर सकते हैं, दोनों एक ही चीज़ को प्राप्त करने की कोशिश कर रहे हैं (= अधिकतम विचरण के दिशा-निर्देश)?
सहसंबंध मैट्रिक्स के दृष्टिकोण का उपयोग करते समय, पीसी की गणना करने से पहले, प्रत्येक चर को अपने व्यक्तिगत मानक विचलन द्वारा मानकीकृत (स्केल) किया जा रहा है। कैसे, फिर भी, यह अभी भी अधिकतम विचरण की दिशाओं को खोजने के लिए समझ में आता है अगर डेटा पहले से ही अलग / पहले से स्केल किया गया हो? मुझे पता है कि पीसीए आधारित सहसंबंध बहुत सुविधाजनक है (मानकीकृत चर आयामहीन हैं, इसलिए उनके रैखिक संयोजनों को जोड़ा जा सकता है; अन्य फायदे व्यावहारिकता पर भी आधारित हैं), लेकिन क्या यह सही है?
यह मेरे लिए प्रतीत होता है कि कोवरियन आधारित पीसीए एकमात्र सही मायने में सही है (यहां तक कि जब चर के अंतर बहुत भिन्न होते हैं), और यह कि जब भी इस संस्करण का उपयोग नहीं किया जा सकता है, तो सहसंबंध आधारित पीसीए का उपयोग नहीं किया जाना चाहिए।
मुझे पता है कि यह धागा है: सहसंबंध या covariance पर पीसीए? - लेकिन यह केवल एक व्यावहारिक समाधान खोजने पर ध्यान केंद्रित करता है, जो बीजगणितीय रूप से सही हो भी सकता है और नहीं भी।