जब नमूना आकार चरों की संख्या से कम होता है तो एक नमूना सहसंयोजक मैट्रिक्स विलक्षण क्यों होता है?


30

चलो कहते हैं कि मैं एक है आयामी मल्टीवेरिएट गाऊसी वितरण। और मैं इस वितरण से अवलोकन (उनमें से प्रत्येक एक ट्रैक्टर) लेता हूं और नमूना सहसंयोजक मैट्रिक्स गणना करता हूं । इस पत्र में , लेखक बताते हैं कि साथ गणना की गई नमूना सहसंयोजक मैट्रिक्स विलक्षण है।एन पी एसpnpSp>n

  • यह कैसे सच या व्युत्पन्न है?
  • कोई स्पष्टीकरण?

4
ध्यान दें कि यह अंतर्निहित वितरण से स्वतंत्र है: इसे गाऊसी होने की आवश्यकता नहीं है।
अमीबा का कहना है कि मोनिका

जवाबों:


22

मैट्रिक्स रैंक के बारे में कुछ तथ्य, बिना प्रमाण के प्रस्तुत किए गए (लेकिन सभी या लगभग सभी के प्रमाण या तो मानक रैखिक बीजगणित ग्रंथों में दिए जाने चाहिए, या कुछ मामलों में ऐसा करने में सक्षम होने के लिए पर्याप्त जानकारी देने के बाद अभ्यास के रूप में सेट किया गया है):

यदि और B दो अभिप्रेरित मैट्रिक्स हैं, तो:AB

(i) के स्तंभ रैंक = की पंक्ति रैंक एकAA

(ii) rank(A)=rank(AT)=rank(ATA)=rank(AAT)

(iii) rank(AB)min(rank(A),rank(B))

(iv) rank(A+B)rank(A)+rank(B)

(v) यदि पूर्ण रैंक का वर्ग मैट्रिक्स है, तो रैंक ( A B ) = रैंक ( A )Brank(AB)=rank(A)

नमूना डेटा के मैट्रिक्स पर विचार करें , y । ऊपर से, y की रैंक सबसे अधिक न्यूनतम ( n , p ) पर हैn×pyymin(n,p)

इसके अलावा, ऊपर से स्पष्ट रूप से की रैंक y की रैंक से बड़ी नहीं होगी ( मैट्रिक्स के रूप में S की गणना पर विचार करके , शायद कुछ सरलीकरण के साथ)।SyS

यदि तब रैंक ( y ) < p जिस स्थिति में रैंक ( S ) < p हैn<prank(y)<prank(S)<p


अच्छा जवाब! हालांकि यह पूरी तरह से स्पष्ट नहीं है कि ए और बी से y और S कैसे संबंधित हैं?
मतिफौ

S की गणना y से की जाती है; (मूल पद में "x")। आप y और इस पर किए गए हेरफेर के तथ्यों का उपयोग कर सकते हैं (उपरोक्त नियमों के माध्यम से) एस के रैंक पर एक बाध्य होने के लिए ए और बी द्वारा निभाई गई भूमिकाएं चरण-दर-चरण बदलती हैं।
Glen_b -Reinstate मोनिका

14

अपने प्रश्न का संक्षिप्त उत्तर है कि रैंक है । इसलिए यदि p > n , तो S एकवचन है।(S)n1p>nS

अधिक विस्तृत उत्तर के लिए, याद रखें कि (निष्पक्ष) नमूना सहसंयोजक मैट्रिक्स के रूप में लिखा जा सकता है

S=1n1i=1n(xix¯)(xix¯)T.

प्रभावी ढंग से, हम संक्षेप रहे हैं मैट्रिक्स, प्रत्येक 1. टिप्पणियों मान लिया जाये की एक रैंक रैखिक स्वतंत्र हैं, कुछ अर्थों में प्रत्येक अवलोकन x मैं पद के लिए 1 योगदान देता है ( एस ) , और एक 1 (यदि पद से घटाया जाता है पी > n ) क्योंकि हम प्रत्येक अवलोकन को । x द्वारा केन्द्रित करते हैं । हालाँकि, यदि बहुकोशिकीय टिप्पणियों में मौजूद है, तो रैंक ( एस ) को कम किया जा सकता है, जो बताता है कि रैंक n - 1 से कम क्यों हो सकती है ।nxi(S)p>nx¯(S)n1

इस समस्या का अध्ययन करने के लिए बड़ी मात्रा में काम किया गया है। उदाहरण के लिए, मेरा और मैं एक साथी ने लिखा एक कागज इस एक ही विषय है, जहाँ हम आगे बढ़ने के लिए कैसे करता है, तो निर्धारित करने में रुचि रखते थे पर जब करने के लिए लागू विलक्षण है विभेदक विश्लेषण रैखिक में पी » n सेटिंग।Spn


4
क्या आप कृपया विस्तार से बता सकते हैं कि 1 को घटायाx¯ क्यों जाता है क्योंकि हम प्रत्येक अवलोकन को ate x द्वारा केन्द्रित करते हैं ?
एवोकैडो


Nice answer! Maybe could just add an explanation/link for the fact the statement we are summing 𝑛 matrices, each having a rank of 1? Thanks!
Matifou

10

When you look at the situation the right way, the conclusion is intuitively obvious and immediate.

This post offers two demonstrations. The first, immediately below, is in words. It is equivalent to a simple drawing, appearing at the very end. In between is an explanation of what the words and the drawing mean.


The covariance matrix for n p-variate observations is a p×p matrix computed by left-multiplying a matrix Xnp (the recentered data) by its transpose Xpn. This product of matrices sends vectors through a pipeline of vector spaces in which the dimensions are p and n. Consequently the covariance matrix, qua linear transformation, will send Rn into a subspace whose dimension is at most min(p,n). It is immediate that the rank of the covariance matrix is no greater than min(p,n). Consequently, if p>n then the rank is at most n, which--being strictly less than p--means the covariance matrix is singular.

All this terminology is fully explained in the remainder of this post.

(As Amoeba kindly pointed out in a now-deleted comment, and shows in an answer to a related question, the image of X actually lies in a codimension-one subspace of Rn (consisting of vectors whose components sum to zero) because its columns have all been recentered at zero. Therefore the rank of the sample covariance matrix 1n1XX cannot exceed n1.)


Linear algebra is all about tracking dimensions of vector spaces. You only need to appreciate a few fundamental concepts to have a deep intuition for assertions about rank and singularity:

  1. Matrix multiplication represents linear transformations of vectors. An m×n matrix M represents a linear transformation from an n-dimensional space Vn to an m-dimensional space Vm. Specifically, it sends any xVn to Mx=yVm. That this is a linear transformation follows immediately from the definition of linear transformation and basic arithmetical properties of matrix multiplication.

  2. Linear transformations can never increase dimensions. This means that the image of the entire vector space Vn under the transformation M (which is a sub-vector space of Vm) can have a dimension no greater than n. This is an (easy) theorem that follows from the definition of dimension.

  3. The dimension of any sub-vector space cannot exceed that of the space in which it lies. This is a theorem, but again it is obvious and easy to prove.

  4. The rank of a linear transformation is the dimension of its image. The rank of a matrix is the rank of the linear transformation it represents. These are definitions.

  5. A singular matrix Mmn has rank strictly less than n (the dimension of its domain). In other words, its image has a smaller dimension. This is a definition.

To develop intuition, it helps to see the dimensions. I will therefore write the dimensions of all vectors and matrices immediately after them, as in Mmn and xn. Thus the generic formula

ym=Mmnxn

m×nMnxmy

yaaMmn,Llm,,Bbc, and Aab to the n-vector xn coming from the space Vn. This takes the vector xn successively through a set of vector spaces of dimensions m,l,,c,b, and finally a.

Look for the bottleneck: because dimensions cannot increase (point 2) and subspaces cannot have dimensions larger than the spaces in which they lie (point 3), it follows that the dimension of the image of Vn cannot exceed the smallest dimension min(a,b,c,,l,m,n) encountered in the pipeline.


This diagram of the pipeline, then, fully proves the result when it is applied to the product XX:

![enter image description here

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.