निम्नलिखित डेटासेट पर विचार करें:
PC1 अक्ष प्रक्षेपण के प्रसरण को अधिकतम कर रहा है। तो इस मामले में यह स्पष्ट रूप से निचले-बाएं से ऊपरी-दाएं कोने तक तिरछा जाएगा:
मूल डेटासेट में सबसे बड़ी जोड़ीदार दूरी इन दो उल्लिखित बिंदुओं के बीच है; ध्यान दें कि यह पीसी 1 में लगभग बिल्कुल संरक्षित है। छोटे लेकिन अभी भी पर्याप्त जोड़ीदार दूरी प्रत्येक बाहरी बिंदुओं और अन्य सभी बिंदुओं के बीच हैं; उन लोगों को यथोचित रूप से संरक्षित किया जाता है। लेकिन अगर आप केंद्रीय क्लस्टर में बिंदुओं के बीच की छोटी जोड़ीदार दूरी को देखते हैं, तो आप देखेंगे कि उनमें से कुछ दृढ़ता से विकृत हैं।
मुझे लगता है कि यह सही अंतर्ज्ञान देता है: पीसीए अधिकतम आयामी विचरण के साथ कम आयामी उप-स्थान पाता है। मैक्सिमल विचरण का अर्थ है कि उप-केंद्र को ऐसे जोड़ दिया जाएगा जैसे कि केंद्र से दूर स्थित बिंदुओं के करीब जाना; इसलिए सबसे बड़ी जोड़ीदार दूरी को अच्छी तरह से संरक्षित किया जाएगा और छोटे लोगों को कम।
1010 × 1010 × 10वास्तव में PC1 द्वारा सबसे अच्छी तरह से संरक्षित किया गया (प्रमाण के लिए मेरा उत्तर देखें)। और कोई यह तर्क दे सकता है कि बड़ी जोड़ीदार दूरी का मतलब आमतौर पर बड़े स्केलर उत्पाद भी होते हैं; वास्तव में, MDS एल्गोरिदम (शास्त्रीय / Torgerson MDS) में से एक स्पष्ट रूप से यह धारणा बनाने के लिए तैयार है।
इसलिए संक्षेप में:
- पीसीए का उद्देश्य जोड़ीदार स्केलर उत्पादों के मैट्रिक्स को संरक्षित करना है, इस अर्थ में कि मूल और पुनर्निर्मित स्केलर उत्पादों के बीच वर्गीय अंतर का योग न्यूनतम होना चाहिए।
- इसका मतलब यह है कि यह स्केलर उत्पादों को सबसे बड़े निरपेक्ष मूल्य के साथ संरक्षित करेगा और छोटे निरपेक्ष मूल्य वाले लोगों के बारे में कम देखभाल करेगा, क्योंकि वे चुकता त्रुटियों के योग की ओर कम जोड़ते हैं।
- इसलिए, पीसीए बड़े स्केलर उत्पादों को छोटे लोगों की तुलना में बेहतर बनाए रखता है।
- पेयरवाइज दूरियों को केवल उतना ही संरक्षित किया जाएगा जितना वे स्केलर उत्पादों के समान होते हैं जो अक्सर होता है लेकिन हमेशा ऐसा नहीं होता है। यदि यह मामला है, तो बड़ी जोड़ीदार दूरी भी छोटे लोगों की तुलना में बेहतर संरक्षित होगी।