पीसीए का मतलब केवल बड़ी जोड़ीदार दूरी को संरक्षित करना है?


10

मैं वर्तमान में टी-एसएनई विज़ुअलाइज़ेशन तकनीक पर पढ़ रहा हूं और यह उल्लेख किया गया था कि उच्च-आयामी डेटा को विज़ुअलाइज़ करने के लिए प्रमुख घटक विश्लेषण (पीसीए) का उपयोग करने की एक खामी यह है कि यह केवल बिंदुओं के बीच बड़ी जोड़ीदार दूरी को संरक्षित करता है। अर्थ अंक जो उच्च-आयामी अंतरिक्ष में बहुत दूर हैं, वे निम्न-आयामी उप-स्थान में भी दूर दिखाई देंगे, लेकिन इसके अलावा अन्य सभी जोड़ीदार दूरी खराब हो जाएंगी।

क्या कोई मुझे यह समझने में मदद कर सकता है कि ऐसा क्यों है और इसका रेखांकन क्या है?


पीसीए यूक्लिडियन और महालनोबिस दूरियों से निकटता से संबंधित है, जो उच्च आयामों में मायोपिक हैं, वे छोटी दूरी नहीं देख सकते हैं।
अक्कल

यह भी ध्यान दें कि पीसीए, जैसा कि सरलतम मीट्रिक एमडीएस के रूप में देखा जाता है, सुन्न वर्ग के यूक्लिडियन दूरियों के पुनर्निर्माण के बारे में है । छोटी दूरी के लिए सटीक, सटीक।
ttnphns

जवाबों:


8

निम्नलिखित डेटासेट पर विचार करें:

पीसीए डेटासेट

PC1 अक्ष प्रक्षेपण के प्रसरण को अधिकतम कर रहा है। तो इस मामले में यह स्पष्ट रूप से निचले-बाएं से ऊपरी-दाएं कोने तक तिरछा जाएगा:

पीसीए केवल बड़ी जोड़ीदार दूरी को संरक्षित करता है

मूल डेटासेट में सबसे बड़ी जोड़ीदार दूरी इन दो उल्लिखित बिंदुओं के बीच है; ध्यान दें कि यह पीसी 1 में लगभग बिल्कुल संरक्षित है। छोटे लेकिन अभी भी पर्याप्त जोड़ीदार दूरी प्रत्येक बाहरी बिंदुओं और अन्य सभी बिंदुओं के बीच हैं; उन लोगों को यथोचित रूप से संरक्षित किया जाता है। लेकिन अगर आप केंद्रीय क्लस्टर में बिंदुओं के बीच की छोटी जोड़ीदार दूरी को देखते हैं, तो आप देखेंगे कि उनमें से कुछ दृढ़ता से विकृत हैं।

मुझे लगता है कि यह सही अंतर्ज्ञान देता है: पीसीए अधिकतम आयामी विचरण के साथ कम आयामी उप-स्थान पाता है। मैक्सिमल विचरण का अर्थ है कि उप-केंद्र को ऐसे जोड़ दिया जाएगा जैसे कि केंद्र से दूर स्थित बिंदुओं के करीब जाना; इसलिए सबसे बड़ी जोड़ीदार दूरी को अच्छी तरह से संरक्षित किया जाएगा और छोटे लोगों को कम।

1010×1010×10वास्तव में PC1 द्वारा सबसे अच्छी तरह से संरक्षित किया गया (प्रमाण के लिए मेरा उत्तर देखें)। और कोई यह तर्क दे सकता है कि बड़ी जोड़ीदार दूरी का मतलब आमतौर पर बड़े स्केलर उत्पाद भी होते हैं; वास्तव में, MDS एल्गोरिदम (शास्त्रीय / Torgerson MDS) में से एक स्पष्ट रूप से यह धारणा बनाने के लिए तैयार है।

इसलिए संक्षेप में:

  1. पीसीए का उद्देश्य जोड़ीदार स्केलर उत्पादों के मैट्रिक्स को संरक्षित करना है, इस अर्थ में कि मूल और पुनर्निर्मित स्केलर उत्पादों के बीच वर्गीय अंतर का योग न्यूनतम होना चाहिए।
  2. इसका मतलब यह है कि यह स्केलर उत्पादों को सबसे बड़े निरपेक्ष मूल्य के साथ संरक्षित करेगा और छोटे निरपेक्ष मूल्य वाले लोगों के बारे में कम देखभाल करेगा, क्योंकि वे चुकता त्रुटियों के योग की ओर कम जोड़ते हैं।
  3. इसलिए, पीसीए बड़े स्केलर उत्पादों को छोटे लोगों की तुलना में बेहतर बनाए रखता है।
  4. पेयरवाइज दूरियों को केवल उतना ही संरक्षित किया जाएगा जितना वे स्केलर उत्पादों के समान होते हैं जो अक्सर होता है लेकिन हमेशा ऐसा नहीं होता है। यदि यह मामला है, तो बड़ी जोड़ीदार दूरी भी छोटे लोगों की तुलना में बेहतर संरक्षित होगी।

मुझे नहीं लगता कि यह एक सही दृश्य है। यह नहीं दिखाता है कि चीजें कितनी बढ़ जाती हैं
आयामीता

2
मुझे यकीन नहीं है कि मैं आपकी बात समझता हूं, @ अक्षल। अपने दृष्टिकोण के साथ एक वैकल्पिक उत्तर पोस्ट करने पर विचार करें। मुझे लगता है कि छोटी जोड़ीदार दूरियों से बेहतर संरक्षण का प्रभाव पहले से ही 2 डी में मौजूद है, और किसी को यह समझने के लिए उच्च आयामीता के बारे में सोचने की आवश्यकता नहीं है कि क्या हो रहा है। इसलिए मैंने एक सरल 2 डी उदाहरण पर ध्यान केंद्रित किया।
अमीबा

आपने जो आकर्षित किया है वह किसी भी विधि पर लागू होगा। मैं कुछ बिंदुओं को बहुत दूर रख सकता हूं और यह तर्क दे सकता हूं कि वे बाकी चीजों से आगे निकल गए हैं। यूक्लिडियन दूरियों के साथ समस्या यह है कि उनकी गतिशील सीमा आयामीता में वृद्धि के साथ सिकुड़ जाती है
अक्सकल

+1, लेकिन मैं एक उच्चारण को शिफ्ट करूंगा, कुछ हद तक आप (बिंदु 4 ज्यादातर) से अलग। बात यह नहीं है कि ये दूरी हैं और ये अदिश उत्पाद हैं ("डबल सेंट्रेशन" मैट्रिक्स) - आखिरकार, विकर्ण को देखते हुए वे समान जानकारी को संरक्षित करते हैं। बल्कि, समस्या पीसीए बनाम फैक्टर विश्लेषण बाधाओं के बिल्कुल अनुरूप है। Torgerson के PCoA, PCA के रूप में, का उद्देश्य स्कोर के पुनर्निर्माण को अधिकतम करना होगा। prod। मैट्रिक्स ज्यादातर अपने विकर्ण के माध्यम से, विशेष रूप से नियंत्रित नहीं करता है कि ऑफ-विकर्ण प्रविष्टियां कैसे फिट हो जाएंगी।
ttnphns

(cont।) उल्लेख किए गए विकर्ण का पता लगाने के लिए समग्र परिवर्तनशीलता है और सीधे सभी वर्गों के जोड़दार दूरी के योग से संबंधित है, व्यक्तिगत दूरी को पीछे छोड़ देता है। यह एकार्ट-यंग प्रमेय के संदर्भ में भी अभिव्यक्त किया जा सकता है जिसमें कहा गया है कि पीसीए-रिकंस्ट्रक्टेड डेटा क्लाउड मूल एक के वर्गों के योग के संदर्भ में सबसे करीब है; अर्थात्, पुराने बिंदुओं और उनके पीसीए-अनुमानित स्पॉट के बीच समग्र चुकता दूरी न्यूनतम है। यह पुरानी जोड़ीदार दूरी के समान नहीं है - नए pw दूरी के संबंध।
ttnphns
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.