PCA वस्तुनिष्ठ फ़ंक्शन: अधिकतम विचरण को कम करने और त्रुटि को कम करने के बीच क्या संबंध है?


32

पीसीए एल्गोरिथ्म को सहसंबंध मैट्रिक्स के रूप में तैयार किया जा सकता है (मान लें कि डेटा X पहले से ही सामान्य हो गया है और हम केवल पहले पीसी पर प्रक्षेपण पर विचार कर रहे हैं)। उद्देश्य समारोह के रूप में लिखा जा सकता है:

maxw(Xw)T(Xw)s.t.wTw=1.

यह ठीक है, और हम इसे हल करने के लिए Lagrangian गुणकों का उपयोग करते हैं, अर्थात इसे निम्न रूप से लिखते हैं:

maxw[(Xw)T(Xw)λwTw],

के बराबर है

maxw(Xw)T(Xw)wTw,

और इसलिए ( मैथवर्ल्ड पर यहाँ देख ) के बराबर हो रहा है

maxwi=1n(distance from point xi to line w)2.

लेकिन यह बिंदु और रेखा के बीच की दूरी को अधिकतम करने के लिए कह रहा है, और जो मैंने यहां पढ़ा है , यह गलत है - यह होना चाहिए , अधिकतम नहीं । मेरी गलती कहाँ है?minmax

या, क्या कोई मुझे अनुमानित स्थान में अधिकतम विचरण और बिंदु और रेखा के बीच की दूरी को कम करने के बीच लिंक दिखा सकता है ?


मुझे लगता है कि घटकों के लिए ऑर्थोगोनलिटी की कसौटी को पूरा करने के लिए न्यूनतम दूरी का उपयोग किया जाता है। पीसी में उन बिंदुओं का अनुमान लगाया जाता है जो एक दूसरे के लिए ऑर्थोगोनल होते हैं लेकिन प्रत्येक क्रमिक घटक में शेष विचरण अधिकतम होता है।
माइकल आर। चेरनिक

संकेत: जब आप सबसे बड़े के बजाय सबसे छोटे स्वदेशी पर विचार करते हैं तो क्या होता है ?
whuber

@whuber The smallest eigenvalue probably has the PC that is the solution to the final objective function. But this PC does not maximixe the original objective function.
Cam.Davidson.Pilon

2
I'm not sure what you mean by "final" and "original" objective function, Cam. PCA is not (conceptually) an optimization program. Its output is a set of principal directions, not just one. It is an (interesting) mathematical theorem that these directions can be found by solving a sequence of constrained quadratic programs, but that's not basic to the concepts or the practice of PCA. I am only suggesting that, by focusing on the smallest eigenvalue rather than on the largest one, you can reconcile the two ideas of (1) minimizing distances and (2) taking an optimization view of PCA.
whuber

1
That's okay - your answer was the non-mistake version of what I was trying to do.
Cam.Davidson.Pilon

जवाबों:


42

Let X be a centered data matrix with n observations in rows. Let Σ=XX/(n1) be its covariance matrix. Let w be a unit vector specifying an axis in the variable space. We want w to be the first principal axis.

According to the first approach, first principal axis maximizes the variance of the projection Xw (variance of the first principal component). This variance is given by the

Var(Xw)=wXXw/(n1)=wΣw.

According to the second approach, first principal axis minimizes the reconstruction error between X and its reconstruction Xww, i.e. the sum of squared distances between the original points and their projections onto w. The square of the reconstruction error is given by

XXww2=tr((XXww)(XXww))=tr((XXww)(XwwX))=tr(XX)2tr(XwwX)+tr(XwwwwX)=consttr(XwwX)=consttr(wXXw)=constconstwΣw.

Notice the minus sign before the main term. Because of that, minimizing the reconstruction error amounts to maximizing wΣw, which is the variance. So minimizing reconstruction error is equivalent to maximizing the variance; both formulations yield the same w.


Something I noticed, isn't wTΣw a convex function (With respect to w as Σ is PSD? How come we try to maximize it?
Royi

@amoeba can you explain how you go from tr() to const in the last step?
alberto

1
@alberto What is inside the trace is a number (1x1 matrix); a trace of a number is this number itself, so the trace can be removed. The constant appears because Σ is equal to XX/n, so there is this 1/n factor.
amoeba says Reinstate Monica

1
@Leullame The calculation will hold verbatim for W if it is a matrix with orthonormal columns. You need WW=I to go from line #3 to line #4. If matrix W has orthonormal columns, then indeed xWW will be a projection of x onto the subspace spanned by the columns of W (here x is a row vector).
amoeba says Reinstate Monica

1
@DanielLópez Well, we are looking for a 1-dimensional subspace minimizing reconstruction error. A 1-dimensional subspace can be defined by a unit-norm vector pointing into its direction, which is what w is taken to be. It has unit norm by construction.
amoeba says Reinstate Monica
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.