यदि वैक्टर ऑर्थोगोनल हैं, तो आप प्रत्येक वेक्टर पर डेटा के स्केलर प्रक्षेपण का विचरण कर सकते हैं। मान लें कि हमारे पास एक डेटा मैट्रिक्स ( अंक x आयाम), और कॉलम वैक्टर का एक सेट है । मान लें कि डेटा केंद्रित हैं। प्रत्येक वेक्टर की दिशा में डेटा का विचरण द्वारा दिया जाता है ।Xnd{v1,...,vk}viVar(Xvi)
यदि मूल आयामों ( ) के रूप में उतने अधिक वैक्टर हैं , तो अनुमानों के भिन्न रूप का योग मूल आयामों के साथ भिन्नताओं के योग के बराबर होगा। लेकिन, अगर मूल आयामों ( ) से कम वैक्टर हैं, तो आमतौर पर पीसीए की तुलना में भिन्नताओं का योग कम होगा। पीसीए के बारे में सोचने का एक तरीका यह है कि यह इस मात्रा को बढ़ाता है (बाधा के अधीन है कि वैक्टर ऑर्थोडोनल हैं)।k=dk<d
आप (विचरण के अंश की व्याख्या) की गणना करना चाहते हैं , जिसका उपयोग अक्सर यह मापने के लिए किया जाता है कि पीसीए आयामों की कितनी संख्या डेटा का प्रतिनिधित्व करती है। चलो योग का प्रतिनिधित्व के डेटा के प्रत्येक मूल आयाम में प्रसरण। फिर:R2S
R2=1S∑i=1kVar(Xvi)
यह अनुमानों के सारांशित रूपांतरों और मूल आयामों के साथ सार किए गए संस्करणों का अनुपात है।
बारे में सोचने का एक और तरीका यह है कि यदि हम अनुमानों से डेटा को फिर से संगठित करने की कोशिश करते हैं तो यह फिट की अच्छाई को मापता है। यह तब अन्य मॉडलों (जैसे प्रतिगमन) के लिए इस्तेमाल किया जाने वाला परिचित रूप लेता है। मान लें कि डेटा बिंदु एक पंक्ति वेक्टर । मैट्रिक्स के कॉलम के साथ प्रत्येक आधार वैक्टर को स्टोर करें । के प्रक्षेपण सभी वैक्टर पर वें डेटा बिंदु द्वारा दिया जाता है । जब मूल आयामों ( से कम वैक्टर होते हैं मैं एक्स ( मैं ) वी मैं वी पी ( मैं ) = एक्स ( मैं ) वी कश्मीर < घ एक्स ( मैं ) = पी ( मैं ) वी टीR2ix(i)ViVp(i)=x(i)Vk<d), हम इस बारे में सोच सकते हैं कि डेटा को रैखिक रूप से कम आयामीता के साथ अंतरिक्ष में मैप किया जा सकता है। हम लगभग मूल डेटा अंतरिक्ष में मानचित्रण वापस द्वारा कम आयामी प्रतिनिधित्व से डेटा बिंदु को फिर से संगठित कर सकते हैं: । मतलब चुकता पुनर्निर्माण त्रुटि प्रत्येक मूल डेटा बिंदु और इसके पुनर्निर्माण के बीच का मतलब चुकता यूक्लिडियन दूरी है:x^(i)=p(i)VT
E=1n∥x(i)−x^(i)∥2
फिट की अच्छाई को अन्य मॉडलों के लिए उसी तरह परिभाषित किया जाता है (जैसे कि एक शून्य से अस्पष्ट गठबंधन का अंश)। मॉडल ( ) और मॉडल मात्रा की कुल भिन्नता ( ), की औसत चुकता त्रुटि को देखते हुए। । हमारे डेटा पुनर्निर्माण के संदर्भ में, मतलब चुकता त्रुटि (पुनर्निर्माण त्रुटि) है। कुल विचरण (डेटा के प्रत्येक आयाम के साथ भिन्न का योग) है। इसलिए:R2MSEVartotalR2=1−MSE/VartotalES
R2=1−ES
S , प्रत्येक डेटा बिंदु से सभी डेटा बिंदुओं के माध्य तक यूक्लिडियन दूरी के बराबर वर्ग के बराबर है, इसलिए हम बारे में भी सोच सकते हैं, जो हमेशा सबसे खराब होने वाले 'सबसे खराब मॉडल' के पुनर्निर्माण त्रुटि की तुलना करता है। पुनर्निर्माण के रूप में मतलब है।R2
लिए दो भाव समतुल्य हैं। ऊपर, यदि मूल आयाम ( ) के रूप में कई वैक्टर हैं तो एक होगा। लेकिन, अगर , आम तौर पर PCA से कम होगा। पीसीए के बारे में सोचने का एक और तरीका यह है कि यह चुकता पुनर्निर्माण त्रुटि को कम करता है।R2k=dR2k<dR2