मुख्य घटक विश्लेषण और बहुआयामी स्केलिंग के बीच अंतर क्या है?

133

पीसीए और शास्त्रीय एमडीएस अलग कैसे हैं? बिना एमडीएम बनाम एमडीएस के बारे में कैसे? क्या कोई समय है जब आप एक दूसरे को पसंद करेंगे? व्याख्याएं कैसे भिन्न होती हैं?

pca multidimensional-scaling pcoa

— स्टीफन टर्नर
स्रोत

95

क्लासिक टॉर्गरसन की मीट्रिक एमडीएस वास्तव में समानता को दूरियों में बदलकर और उन पर पीसीए (ईजन-अपघटन या एकवचन-मूल्य-अपघटन) करके किया जाता है। [ इस प्रक्रिया का दूसरा नाम ( distances between objects -> similarities between them -> PCA, जिससे लोडिंग निर्देशांक के लिए मांगी गई है) प्रधान समन्वय विश्लेषण / पीसीओए है ।] इसलिए, पीसीए को सरलतम एमडीएस का एल्गोरिथ्म कहा जा सकता है।

गैर-मीट्रिक एमडीएस पुनरावृत्त ALSCAL या PROXSCAL एल्गोरिथ्म (या उनके समान एल्गोरिथ्म) पर आधारित है जो पीसीए की तुलना में अधिक बहुमुखी मैपिंग तकनीक है और इसे मीट्रिक एमडीएस पर भी लागू किया जा सकता है। जबकि PCA आपके लिए m महत्वपूर्ण आयामों को बरकरार रखता है , ALSCAL / PROXSCAL, m आयामों के लिए कॉन्फ़िगरेशन को फिट करता है (आप पूर्व-परिभाषित m ) और यह PCA की तुलना में मानचित्र पर असमानताओं को अधिक सीधे और सटीक रूप से पुन: पेश करता है (आमतौर पर नीचे चित्रण देखें)।

इस प्रकार, एमडीएस और पीसीए संभवतः एक ही स्तर पर एक दूसरे के अनुरूप या विपरीत नहीं हैं। पीसीए सिर्फ एक विधि है जबकि एमडीएस विश्लेषण का एक वर्ग है। मैपिंग के रूप में, पीसीए एमडीएस का एक विशेष मामला है। दूसरी ओर, पीसीए फैक्टर विश्लेषण का एक विशेष मामला है जो डेटा में कमी होने के कारण केवल एक मैपिंग से अधिक है, जबकि एमडीएस केवल एक मैपिंग है।

मीट्रिक एमडीएस बनाम गैर-मीट्रिक एमडीएस के बारे में आपके प्रश्न के लिए टिप्पणी करने के लिए बहुत कम है क्योंकि उत्तर सीधा है। अगर मुझे लगता है कि मेरे इनपुट असमानताएं यूक्लिडियन दूरियों के करीब हैं तो एक रैखिक परिवर्तन उन्हें एम-आयामी अंतरिक्ष में मैप करने के लिए पर्याप्त होगा, मैं मीट्रिक एमडीएस पसंद करूंगा। यदि मुझे विश्वास नहीं होता है, तो गैर-मीट्रिक एमडीएस के उपयोग को लागू करने के लिए मोनोटोनिक परिवर्तन आवश्यक है।

एक पाठक के लिए शब्दावली पर एक नोट । शब्द क्लासिक (अल) एमडीएस (सीएमडीएस) एमडीएस पर एक विशाल साहित्य में दो अलग-अलग अर्थ हो सकते हैं, इसलिए यह अस्पष्ट है और इसे टाला जाना चाहिए। एक परिभाषा यह है कि CMDS Torgerson के मीट्रिक एमडीएस का एक पर्याय है। एक और परिभाषा यह है कि सीएमडीएस एकल मैट्रिक्स इनपुट के साथ किसी भी एमडीएस (किसी भी एल्गोरिथ्म; मीट्रिक या गैर-मेट्रिक विश्लेषण द्वारा) है (एक बार में कई मैट्रिस का विश्लेषण करने वाले मॉडल मौजूद हैं - व्यक्तिगत "INDSCAL" मॉडल और प्रतिकृति मॉडल)।

उत्तर का चित्रण । अंकों के कुछ बादल (दीर्घवृत्त) को एक-आयामी mds- मानचित्र पर मैप किया जा रहा है। एक बिंदु को लाल बिंदुओं में दिखाया गया है।

$\|D_o-D_m\|_2^2$ $\|D_o^2-D_m^2\|_1$ $\|D_o-D_m\|_1$

PCA- आधारित MDS (Torgerson's, या PCoA) सीधे नहीं है। यह मूल अंतरिक्ष में वस्तुओं और नक्शे पर उनकी छवियों के बीच वर्ग दूरी को कम करता है। यह काफी वास्तविक एमडीएस कार्य नहीं है; एमडीएस के रूप में यह बहुत ही सफल है, केवल इस हद तक कि कनिष्ठ कनिष्ठ कुल्हाड़ियां कमजोर हैं। यदि की तुलना में बहुत अधिक विचरण करता है, तो पूर्व केवल बादल में जोड़ीदार दूरी को काफी हद तक प्रतिबिंबित कर सकता है, विशेष रूप से दीर्घवृत्त के साथ दूर के बिंदुओं के लिए। Iterative एमडीएस हमेशा जीत जाएगा, और खासकर जब नक्शा बहुत कम आयामी चाहता है। Iterative MDS, तब भी अधिक सफल होगा जब एक क्लाउड दीर्घवृत्त पतला होता है, लेकिन PCoA की तुलना में mds-task को बेहतर बनाएगा। डबल-सेंट्रेशन मैट्रिक्स की संपत्ति द्वारा ( यहाँ वर्णित है $P_1$ $P_2$ ) ऐसा प्रतीत होता है कि PCoA न्यूनतम करता है , जो उपरोक्त में से किसी भी न्यूनतम से भिन्न है। $\|D_o\|_2^2-\|D_m\|_2^2$

एक बार फिर, पीसीए सबसे लाभप्रद ऑल कॉर्पोरल सेविंग सबस्पेस पर क्लाउड के अंकों को प्रोजेक्ट करता है । यह जोड़ीदार दूरी , एक उप-स्थान पर बिंदुओं के सापेक्ष स्थानों को उस संबंध में बचत नहीं करता है, जैसा कि पुनरावृत्त MDS करता है। हालांकि, ऐतिहासिक रूप से पीसीओए / पीसीए को मीट्रिक एमडीएस के तरीकों में माना जाता है।

— ttnphns
स्रोत

3

(+1) मुझे दोनों उत्तर पसंद थे, यह शायद थोड़ा अधिक है।

— पापेल सेलोव

पीसीओए से संबंधित पीडीएफ का लिंक। यह वेब आर्काइव पर पाया जा सकता है: web.archive.org/web/20160315120635/http://forrest.psych.unc.edu/…

— पियरे

49

उम्म ... एकदम अलग। पीसीए में, आपको मल्टीवेरिएट निरंतर डेटा (प्रत्येक विषय के लिए एक मल्टीवेरेट वेक्टर) दिया जाता है, और यदि आप उन्हें अवधारणा बनाने के लिए कई आयामों की आवश्यकता नहीं है, तो आप यह पता लगाने की कोशिश कर रहे हैं। (मीट्रिक) एमडीएस में, आपको वस्तुओं के बीच की दूरी का मैट्रिक्स दिया जाता है, और आप यह पता लगाने की कोशिश कर रहे हैं कि अंतरिक्ष में इन वस्तुओं के स्थान क्या हैं (और क्या आपको 1 डी, 2 डी, 3 डी, आदि स्थान की आवश्यकता है)। गैर-मीट्रिक एमडीएस में, आप केवल यह जानते हैं कि ऑब्जेक्ट 1 और 2 ऑब्जेक्ट 2 और 3 की तुलना में अधिक दूर हैं, इसलिए आप आयामों और स्थानों को खोजने के शीर्ष पर, इसे निर्धारित करने का प्रयास करते हैं।

कल्पना के एक उल्लेखनीय खिंचाव के साथ, आप कह सकते हैं कि पीसीए और एमडीएस का एक सामान्य लक्ष्य 2 डी या 3 डी में वस्तुओं की कल्पना करना है। लेकिन यह देखते हुए कि इनपुट्स कितने अलग हैं, इन तरीकों पर चर्चा नहीं की जाएगी, यहां तक कि किसी भी बहुभिन्नरूपी पाठ्यपुस्तक से संबंधित भी। मुझे लगता है कि आप एमडीएस के लिए प्रयोग करने योग्य डेटा में पीसीए के लिए उपयोग करने योग्य डेटा को परिवर्तित कर सकते हैं (जैसे, वस्तुओं के बीच महालनोबिस दूरी की गणना करके, नमूना सहसंयोजक मैट्रिक्स का उपयोग करके), लेकिन इससे तुरंत जानकारी का नुकसान होगा, एमडीएस को केवल परिभाषित किया गया है। स्थान और रोटेशन के लिए, और बाद के दो पीसीए के साथ अधिक जानकारीपूर्ण रूप से किए जा सकते हैं।

अगर मैं संक्षेप में किसी को गैर-मीट्रिक एमडीएस के परिणाम दिखाता था और उन्हें विस्तार से जाने बिना क्या करता है इसका एक मोटा विचार देना चाहता था, तो मैं कह सकता था:

हमारे पास मौजूद समानता या असमानता के उपायों को देखते हुए, हम अपनी वस्तुओं / विषयों को इस तरह से मैप करने की कोशिश कर रहे हैं कि उनके द्वारा बनाए गए up शहरों ’में उन दोनों के बीच दूरियां हों, जो इन समानता के उपायों के करीब हैं जितना हम उन्हें बना सकते हैं। हम उन्हें केवल डाइमेंशनल स्पेस में पूरी तरह से मैप कर सकते हैं, हालांकि, मैं यहां दो सबसे अधिक जानकारीपूर्ण आयामों का प्रतिनिधित्व कर रहा हूं - जैसे कि आप पीसीए में क्या करेंगे अगर आपने दो प्रमुख प्रिंसिपल घटकों के साथ एक चित्र दिखाया। $n$

— StasK
स्रोत

18

क्या पीसीए मानकीकृत चर पर गणना की गई यूक्लिडियन दूरी के साथ एमडीएस के बराबर सहसंबंध मैट्रिक्स पर लागू नहीं है?

— CHL

इसलिए, अगर मैं किसी को गैर-मीट्रिक एमडीएस के परिणामों को संक्षेप में दिखाऊं और उन्हें विस्तार से जाने बिना क्या करना है, इसका एक मोटा विचार देना चाहता था, तो क्या मैं भ्रामक होने के बिना "यह पीसीए के समान कुछ करता है"?

— फ्रेया हैरिसन

6

मैं कहूंगा, "हमारे पास समानता या असमानता के उपायों को देखते हुए, हम अपनी वस्तुओं / विषयों को इस तरह से मैप करने की कोशिश कर रहे हैं कि वे जो 'शहर' बनाते हैं, उनके बीच दूरियां हों जो इन समानता के उपायों के करीब हों हम उन्हें बना सकते हैं। हम उन्हें केवल डाइमेंशनल स्पेस में पूरी तरह से मैप कर सकते हैं, इसलिए मैं यहां सबसे अधिक जानकारीपूर्ण आयामों का प्रतिनिधित्व कर रहा हूं - जैसे कि आप पीसीए में क्या करेंगे यदि आपने दो प्रमुख प्रमुख घटकों के साथ एक चित्र दिखाया।

n

$n$

— StasK

+1 कूल - मेरे लिए, यह टिप्पणी आपके उत्तर को अच्छी तरह से जोड़ देती है। धन्यवाद।

— फ्रेया हैरिसन

47

दो प्रकार के मीट्रिक एमडीएस

मीट्रिक बहुआयामी स्केलिंग (MDS) के कार्य को निम्न प्रकार से तैयार किया जा सकता है: पॉइंट्स के बीच युग्मित दूरियों का एक मैट्रिक्स दिया गया , में डेटा बिंदुओं का एक कम-आयामी एम्बेडिंग ढूँढें, जैसे कि उनके बीच न्यूक्लिडियन दूरियाँ। दिया दूरी: $n\times n$ $\mathbf D$ $n$ $\mathbb R^k$

‖ x_{i} - x_{j} ‖ \approx D_{i j} .

$\|\mathbf x_i - \mathbf x_j\|\approx D_{ij}.$

"लगभग" यहाँ एक में पुनर्निर्माण त्रुटि के सामान्य अर्थ समझ में आ जाता है, तो यानी लक्ष्य लागत समारोह "तनाव" कहा जाता है कम करने के लिए है अगर: तो समाधान है पीसीए के बराबर नहीं । समाधान किसी भी बंद सूत्र द्वारा नहीं दिया गया है, और एक समर्पित पुनरावृत्ति एल्गोरिथ्म द्वारा गणना की जानी चाहिए।

Stress \sim ‖ D - ‖ x_{i} - x_{j} ‖ ‖^{2},

$\text{Stress} \sim \Big\|\mathbf D - \|\mathbf x_i - \mathbf x_j\|\Big\|^2,$

"शास्त्रीय एमडीएस", जिसे "Torgerson एमडीएस" जाना जाता है, एक संबंधित द्वारा इस लागत समारोह की जगह लेकिन बराबर नहीं : एक, बुलाया "तनाव" कम से कम करना चाहता है दूरी के बजाय केंद्रित स्केलर उत्पादों की पुनर्निर्माण त्रुटि। यह पता चला है कि गणना से की जा सकती है (यदि यूक्लिडियन दूरियाँ हैं) और की पुनर्निर्माण त्रुटि कम से कम पीसीए करता है, जैसा कि अगले भाग में दिखाया गया है।

Strain \sim ‖ K_{c} - ⟨ x_{i}, x_{j} ⟩ ‖^{2},

$\text{Strain} \sim \Big\|\mathbf K_c - \langle\mathbf x_i, \mathbf x_j\rangle\Big\|^2,$

K_{c}

$\mathbf K_c$

D

$\mathbf D$

D

$\mathbf D$

K_{c}

$\mathbf K_c$

यूक्लिडियन दूरी पर शास्त्रीय (Torgerson) MDS पीसीए के बराबर है

$\mathbf X$ $n \times k$ $\mathbf X_c$

$\mathbf X_c = \mathbf {USV^\top}$ $\mathbf{US}$ $\frac{1}{n}\mathbf X_c^\top \mathbf X^\vphantom{\top}_c$ $\mathbf K_c = \mathbf X^\vphantom{\top}_c \mathbf X^\top_c=\mathbf U \mathbf S^2 \mathbf U^\top$

$\mathbf X_c = (\mathbf I - \frac{1}{n}\mathbf 1_n)\mathbf X$ $\mathbf 1_n$ $n \times n$

K_{c} = (I - \frac{1_{n}}{n}) K (I - \frac{1_{n}}{n}) = K - \frac{1_{n}}{n} K - K \frac{1_{n}}{n} + \frac{1_{n}}{n} K \frac{1_{n}}{n},

$\mathbf K_c = \left(\mathbf I - \frac{\mathbf 1_n}{n}\right)\mathbf K\left(\mathbf I - \frac{\mathbf 1_n}{n}\right) = \mathbf K - \frac{\mathbf 1_n}{n} \mathbf K - \mathbf K \frac{\mathbf 1_n}{n} + \frac{\mathbf 1_n}{n} \mathbf K \frac{\mathbf 1_n}{n},$

K = X X^{⊤}

$\mathbf K = \mathbf X \mathbf X^\top$

X

$\mathbf X$

K

$\mathbf K$

K_{c}

$\mathbf K_c$

$n \times n$ $\mathbf D$ $D_{ij} = \|\mathbf x_i - \mathbf x_j\|$ $\mathbf K_c$

\begin{aligned} D_{i j}^{2} = ‖ x_{i} - x_{j} ‖^{2} & = ‖ x_{i} - \bar{x} ‖^{2} + ‖ x_{j} - \bar{x} ‖^{2} - 2 ⟨ x_{i} - \bar{x}, x_{j} - \bar{x} ⟩ \\ = ‖ x_{i} - \bar{x} ‖^{2} + ‖ x_{j} - \bar{x} ‖^{2} - 2 [K_{c}]_{i j} . \end{aligned}

$\begin{align} D_{ij}^2 = \|\mathbf x_i - \mathbf x_j\|^2 &= \|\mathbf x_i - \bar{\mathbf x}\|^2 + \|\mathbf x_j - \bar{\mathbf x}\|^2 - 2\langle\mathbf x_i - \bar{\mathbf x}, \mathbf x_j - \bar{\mathbf x} \rangle \\ &= \|\mathbf x_i - \bar{\mathbf x}\|^2 + \|\mathbf x_j - \bar{\mathbf x}\|^2 - 2[K_c]_{ij}. \end{align}$

- D^{2} / 2

$-\mathbf D^2/2$

K_{c}

$\mathbf K_c$

D^{2}

$\mathbf D^2$

K_{c}

$\mathbf K_c$

K_{c} = - (I - \frac{1_{n}}{n}) \frac{D^{2}}{2} (I - \frac{1_{n}}{n}) .

$\mathbf K_c = -\left(\mathbf I - \frac{\mathbf 1_n}{n}\right)\frac{\mathbf D^2}{2}\left(\mathbf I - \frac{\mathbf 1_n}{n}\right).$

$\mathbf D$ $\mathbf D \mapsto \mathbf K_c \mapsto \mathbf{US}$

$\|\mathbf x_i - \mathbf x_j\|$

संदर्भ: सांख्यिकीय शिक्षा के तत्व , खंड 18.5.2।

— एक सलि का जन्तु
स्रोत

X X^{T}

$\mathbf X \mathbf X^T$

n \times n

$n \times n$

धन्यवाद, @cbeleites, निश्चित रूप से आप सही हैं - यह सिर्फ एक टाइपो है। अब ठीक कर देंगे। मुझे पता है कि क्या आप अन्य गलतियों को देखते हैं (या सीधे संपादित करने के लिए स्वतंत्र महसूस करते हैं)।

— अमीबा

1

+1। और गणित के द्वारा दिखाने के लिए धन्यवाद कि मेरे उत्तर के पहले पैराग्राफ में क्या कहा गया था।

— tnnphns

2

+1 काश यह स्वीकृत / शीर्ष उत्तर होता। मुझे लगता है कि यह आसानी से होने योग्य है।

— झूबर्ब

35

PCA, शास्त्रीय MDS के समान ही परिणाम देता है यदि यूक्लिडियन दूरी का उपयोग किया जाता है।

मैं कॉक्स एंड कॉक्स (2001), पी 43-44 उद्धृत कर रहा हूं:

एक प्रिंसिपल कंपोनेंट्स एनालिसिस और PCO [प्रिंसिपल कोऑर्डिनेट एनालिसिस, उर्फ़ क्लासिकल MDS] के बीच एक द्वंद्व है, जहाँ यूक्लिडियन डिस्टेंस द्वारा असमानताएँ दी जाती हैं।

कॉक्स एंड कॉक्स में अनुभाग इसे बहुत स्पष्ट रूप से समझाता है:

$X$ $n$ $p$
$X'X$ $\xi$ $\mu$
$X$ $XX'$ $v$ $\lambda$
$XX'$ $X'X$ $i < p$ $\mu_i$ $\lambda_i$
$i^{th}$ $X'Xv_i = \lambda_i v_i$
$v_i$ $X'$ $(X'X)X'v_i = \lambda_i X'v_i$
$X'X \xi_i = \mu_i \xi_i$ $\lambda_i = \mu_i$ $\xi_i = X'v_i$ $i<p$

— user1705135
स्रोत

2

मैंने आर में कुछ कोडिंग की, और पीसीए के लिए क्लासिकल एमडीएस और प्रैम्पक के कार्यान्वयन के रूप में सीडस्केल का उपयोग किया - हालांकि परिणाम, समान नहीं है ... क्या कोई बिंदु है जो मुझे याद आ रहा है?

— user4581

3

same results as classical MDS। "शास्त्रीय एमडीएस" के द्वारा आपको यहाँ Torgerson के MDS का अर्थ होना चाहिए। फिर बयान वास्तव में सच है के लिए Torgerson के एमडीएस है (केवल दूरी मैट्रिक्स से शुरू) वास्तव में पीसीए। यदि "शास्त्रीय एमडीएस" को अलग तरह से परिभाषित करें (मेरा उत्तर देखें) तो कथन सत्य नहीं है।

— ttnphns

7

रुको, कैसे पृथ्वी पर XX 'यूक्लिडियन दूरी प्रदान करता है ?? XX 'एक आंतरिक उत्पाद है - यदि मैट्रिक्स को मानकीकृत किया गया था तो यह कोसाइन समानता देगा। यूक्लिडियन दूरी के लिए एक घटाव और एक वर्गमूल की आवश्यकता होती है।

— शाइनाआर

X X^{'} v_{i} = λ_{i} v_{i}

$XX'v_i = \lambda_i v_i$

4

तुलना: "मीट्रिक एमडीएस पीसीए के रूप में एक ही परिणाम देता है" - प्रक्रियात्मक रूप से- जब हम एसवीडी को इष्टतम प्राप्त करने के लिए उपयोग किए जाने वाले तरीके को देखते हैं। लेकिन, संरक्षित उच्च-आयामी मानदंड अलग है। पीसीए एक केंद्रित कोवरियन मैट्रिक्स का उपयोग करता है जबकि एमडीएस डबल-सेंटरिंग दूरी मैट्रिस द्वारा प्राप्त एक ग्राम मैट्रिक्स का उपयोग करता है।

अंतर को गणितीय रूप से रखा जाएगा: पीसीए को अधिकतम रूप में देखा जा सकता है $Tr(X^T(I-\frac{1}{n}ee^T)X)$ $X$ $X$ $Z^TZ$ $X$ $Y$ $||G-Y^TY||_{F}^{2}$

— रथी
स्रोत