क्या डेटा मैट्रिक्स लिए की सहज व्याख्या है ?


107

किसी दिए गए डेटा मैट्रिक्स (स्तंभों में चर और डेटा बिंदुओं के साथ पंक्तियों में) के लिए, ऐसा लगता है कि ए ^ टीए आंकड़ों में एक महत्वपूर्ण भूमिका निभाता है। उदाहरण के लिए, यह कम से कम वर्गों के विश्लेषणात्मक समाधान का एक महत्वपूर्ण हिस्सा है। या, पीसीए के लिए, इसके eigenvectors डेटा के प्रमुख घटक हैं।AATA

मैं समझता हूं कि ए ^ टीए की गणना कैसे करें ATA, लेकिन मैं सोच रहा था कि क्या यह मैट्रिक्स की एक सहज व्याख्या है, जो इसकी महत्वपूर्ण भूमिका की ओर जाता है?


2
कुछ अंतर्ज्ञान आँकड़ों के विश्लेषण द्वारा वहन किया जा सकता है ।stackexchange.com / a / 66295 / 919
whuber

जवाबों:


125

ज्यामितीय रूप से, मैट्रिक्स को स्केलर उत्पादों (= डॉट उत्पादों, = आंतरिक उत्पादों) का मैट्रिक्स कहा जाता है । बीजगणितीय रूप से, इसे सम-वर्ग-और-क्रॉस-उत्पाद मैट्रिक्स ( SSCP ) कहा जाता है।AA

इसका मई के विकर्ण तत्व के बराबर है , जहां मूल्यों में अर्थ है के मई के स्तंभ और पंक्तियों में योग है। वें ऑफ विकर्ण तत्व उसमें है ।ia(i)2a(i)iAija(i)a(j)

कई महत्वपूर्ण संघ गुणांक हैं और उनके वर्ग मैट्रिक्स को कोणीय समानता या एसएससीपी-प्रकार समानता कहा जाता है:

  • SSCP मैट्रिक्स को विभाजित करके , नमूना आकार या की पंक्तियों की संख्या , आपको MSCP (माध्य-वर्ग और क्रॉस-उत्पाद) मैट्रिक्स मिलता है। इस एसोसिएशन के माप का जोड़ीदार सूत्र इसलिए (वैक्टर और साथ से स्तंभों की एक जोड़ी है )।nAxynxyA

  • आप तो केंद्र के कॉलम (चर) है, तो है बिखराव (या सह-बिखराव, अगर कठोर होने के लिए) मैट्रिक्स और है सहप्रसरण आव्यूह। सहसंयोजक का सूत्र और केंद्रित स्तंभों के साथ ।AAAAA/(n1)cxcyn1cxcy

  • यदि आप स्तंभों का मानकीकरण करते हैं (मानक विचलन द्वारा स्तंभ के माध्य और भाग को घटाएं), तो पियर्सन सहसंबंध मैट्रिक्स है: सहसंबंध मानकीकृत चर के लिए सहसंयोजक है। सहसंबंध के जोड़ो में सूत्र है के साथ और मानकीकृत स्तंभों को संकेतित करते। सहसंबंध को रैखिकता का गुणांक भी कहा जाता है।AAA/(n1)zxzyn1zxzy

  • आप इकाई हैं पैमाने के स्तंभों (उनके एसएस,-के-योग वर्ग, 1 के लिए लाने के), तो है कोज्या समानता मैट्रिक्स। इस प्रकार समतुल्य सूत्र इस प्रकार प्रतीत होता है कि और साथ L2- सामान्यीकृत स्तंभों को दर्शाते हैं। । Cosine समानता को आनुपातिकता का गुणांक भी कहा जाता है।AAAuxuy=xyx2y2uxuy

  • यदि आप केंद्र और उसके बाद इकाई- स्केल कॉलम , तो फिर से पीयरसन सहसंबंध मैट्रिक्स है, क्योंकि सहसंबंध केंद्रित चर के लिए कोसाइन है :AAA1,2cuxcuy=cxcycx2cy2

इन चार प्रमुख संघ के उपायों के साथ-साथ, हम कुछ अन्य का भी उल्लेख करते हैं, इसे बंद करने के लिए पर भी आधारित है। उन्हें कॉस्मिक समानता के विकल्प के रूप में देखा जा सकता है क्योंकि वे इसे सामान्यीकरण से अलग अपनाते हैं, सूत्र में हर:AA

  • पहचान का गुणांक [Zegers & Ten Berge, 1985] में ज्यामितीय माध्य के बजाय अंकगणितीय माध्य के रूप में इसका हर होता है: । यह 1 हो सकता है और केवल अगर स्तंभों की तुलना की जा रही है तो समान हैं।xy(x2+y2)/2A

  • एक और प्रयोग करने योग्य गुणांक जैसे इसे समानता अनुपात कहा जाता है : ।xyx2+y2xy=xyxy+(xy)2

  • अंत में, यदि में मान अप्रतिष्ठित हैं और स्तंभों के भीतर उनका योग 1 है (जैसे वे अनुपात हैं), तो , निष्ठा या भट्टाचार्य गुणांक का मैट्रिक्स है ।AAA


1 एक तरीका यह भी है कि सहसंबंध या सहसंयोजक मैट्रिक्स की गणना करें, जिसका उपयोग कई सांख्यिकीय पैकेजों द्वारा किया जाता है, डेटा को केंद्र में रखते हुए और इस तरह से SSCP मैट्रिक्स से सीधे प्रस्थान करता है । चलो डेटा के कॉलम sums की पंक्ति वेक्टर हो सकता है जबकि डेटा में पंक्तियों की संख्या है। तब (1) तितर बितर मैट्रिक्स की गणना करें जैसा कि [thence, सहसंयोजक मैट्रिक्स होगा]; (2) के विकर्ण चुकता विचलन, पंक्ति वेक्टर की रकम है ; (3) गणना सहसंबंध मैट्रिक्स ।AAsAnC=AAss/nC/(n1)CdR=C/dd

2 एक तीव्र लेकिन सांख्यिकीय रूप से नौसिखिए पाठक को सहसंबंध की दो परिभाषाओं को समेटना मुश्किल लग सकता है - जैसा कि "कोवरिएनस" (जिसमें नमूना आकार द्वारा औसत शामिल है, df = "n-1" द्वारा विभाजन ) और "कोसाइन" (जिसका अर्थ है ऐसा कोई औसत नहीं)। लेकिन वास्तव में सहसंबंध के पहले सूत्र में कोई वास्तविक औसत नहीं होता है। बात यह है कि सेंट। विचलन, जिसके द्वारा z- मानकीकरण प्राप्त किया गया था, बदले में उसी df द्वारा विभाजन के साथ गणना की गई थी ; और इतने भाजक "n-1" सह-संबंध के रूप में सहप्रसरण के सूत्र में पूरी तरह से रद्द कर देता है यदि आप सूत्र खोलने: सूत्र कोज्या के सूत्र में बदल जाता है । अनुभवजन्य सहसंबंध मूल्य की गणना करने के लिए आपको वास्तव में को जानने की आवश्यकता नहीं हैn (जब गणना का मतलब केंद्र को छोड़कर)।


42

मैट्रिक्स में में सभी कॉलम के सभी आंतरिक उत्पाद शामिल हैं । इस प्रकार विकर्ण में स्तंभों के वर्ग हैं। यदि आप द्वारा स्तंभों द्वारा फैलाए गए स्तंभ स्थान पर ज्यामिति और ऑर्थोगोनल अनुमानों के बारे में सोचते हैं तो आपको याद हो सकता है कि इस स्थान पर फैले वैक्टर के मानदंड और आंतरिक उत्पाद प्रक्षेपण की गणना में केंद्रीय भूमिका निभाते हैं। ऑर्थोगोनल अनुमानों के संदर्भ में कम से कम प्रमुख वर्गों और साथ ही प्रमुख घटकों को भी समझा जा सकता है।ATAAA

यह भी ध्यान दें कि यदि के कॉलम ऑर्थोनॉर्मल हैं, इस प्रकार कॉलम स्पेस के लिए ऑर्थोनॉमिक आधार बनाते हैं, तो पहचान मैट्रिक्स।AATA=I


39

@ एनआरएच ने एक अच्छा तकनीकी जवाब दिया।

यदि आप वास्तव में कुछ बुनियादी चाहते हैं, तो आप बारे में सोच सकते हैं क्योंकि स्केलर के लिए मैट्रिक्स बराबर है ।ATAA2


5
यद्यपि अन्य उत्तर अधिक "तकनीकी रूप से" सही हैं, यह सबसे सहज उत्तर है।
CatsLoveJazz

3

की ज्यामिति का एक महत्वपूर्ण दृश्य यह है ("रेखीय बीजगणित और इसके अनुप्रयोगों" पर स्ट्रांग की पुस्तक में दृष्टिकोण पर जोर दिया गया है: मान लीजिए कि A रैंक रैंक का -मेट्रिक्स है, एक रेखीय मानचित्र का प्रतिनिधित्व करता है । कर्नल (ए) और पंक्ति (ए) के स्तंभ और पंक्ति रिक्त स्थान होने दो । फिरAAm×nA:RnRmA

(a) एक वास्तविक सममित मैट्रिक्स के रूप में, का एक आधार eigenvectors का गैर-शून्य eigenvalues । इस प्रकार:(AA):RnRn{e1,...,en}d1,,dk

(AA)(x1e1++xnen)=d1x1e1+...+dkxkek

(b) रेंज (A) = Col (A), Col (A) की परिभाषा से। तो ए | रो (ए) मैप्स रो (ए) को कर्ल (ए) में।

(c) कर्नेल (A) रो (A) का ऑर्थोगोनल पूरक है। ऐसा इसलिए है क्योंकि मैट्रिक्स गुणन को डॉट उत्पादों (पंक्ति i) * (col j) के संदर्भ में परिभाषित किया गया है। (अतःAv=0v is in Kernel(A)vis in orthogonal complement of Row(A)

(d) और isomorphism है ।A(Rn)=A(Row(A))A|Row(A):Row(A)Col(A)

Reason: If v = r+k (r \in Row(A), k \in Kernel(A),from (c)) then
A(v) = A(r) + 0 = A(r) where A(r) = 0 <==> r = 0$.

[संयोग से एक प्रमाण मिलता है कि रो रैंक = कॉलम रैंक!]

(e) लागू (d), एक समरूपता हैA|:Col(A)=Row(A)Col(A')=Row(A)

(f) By (d) और (e): और A'A मैप्स Row (A) isomorphically Row (A)।AA(Rn)=Row(A)


2
आप प्राप्त करने के लिए $ और $ में एक सूत्र संलग्न कर सकते हैं । LATEX
प्लेसिडिया

2

यद्यपि यह पहले ही चर्चा की जा चुकी है कि का मतलब डॉट उत्पाद लेना है, मैं केवल इस गुणन का चित्रमय प्रतिनिधित्व ही जोड़ूंगा।ATA

दरअसल, जबकि मैट्रिक्स (और मैट्रिक्स ) के कॉलम चर का प्रतिनिधित्व करते हैं, हम प्रत्येक चर माप को एक बहुआयामी वेक्टर के रूप में मानते हैं। पंक्ति गुणा की स्तंभ के साथ की : दो वैक्टर की डॉट उत्पाद लेने के बराबर है परिणाम स्थिति में प्रवेश किया जा रहा है - मैट्रिक्स ।ATArowpATcolpAdot(rowp,colp)(p,p)ATA

इसी तरह, पंक्ति गुणा के स्तंभ के साथ की डॉट उत्पाद के बराबर है: की स्थिति में, परिणाम के साथ ।pATkAdot(rowp,colk)(p,k)

परिणामी मैट्रिक्स प्रवेश का अर्थ है कि वेक्टर की दिशा में वेक्टर । यदि दो वैक्टर की डॉट उत्पाद और शून्य के अलावा है, कुछ जानकारी एक वेक्टर के बारे में है किया एक सदिश द्वारा , और इसके विपरीत।(p,k)ATArowpcolkrowicoljrowicolj

यह विचार प्रधान घटक विश्लेषण, में एक महत्वपूर्ण भूमिका जहां हम अपने प्रारंभिक डेटा मैट्रिक्स की एक नई प्रतिनिधित्व लगाना चाहते हैं निभाता है , कोई अधिक जानकारी के किसी भी स्तंभ के बारे में किए गए है ऐसा है कि किसी अन्य कॉलम में । पीसीए का गहराई से अध्ययन करने पर, आप देखेंगे कि सहसंयोजक मैट्रिक्स का एक "नया संस्करण" गणना किया जाता है और यह एक विकर्ण मैट्रिक्स बन जाता है जिसे मैं आपको यह महसूस करने के लिए छोड़ देता हूं कि ... वास्तव में इसका मतलब है कि मैंने पिछले वाक्य में क्या व्यक्त किया था।Aiji

यहाँ छवि विवरण दर्ज करें


1

अंतर्ज्ञान के स्तर हैं। मैट्रिक्स नोटेशन इंस्टैटिस्टिक्स से परिचित लोगों के लिए अंतर्ज्ञान को यादृच्छिक चर के वर्ग के रूप में सोचना है: बनामxE[x2]AATA

मैट्रिक्स संकेतन में यादृच्छिक चर अवलोकनों का एक नमूना या जनसंख्या को एक स्तंभ सदिश द्वारा दर्शाया जाता है:xxi

a=[x1x2xn]

इसलिए, यदि आप वेरिएबल के वर्ग का एक नमूना मतलब प्राप्त करना चाहते हैं, तो आप बस एक डॉट उत्पाद , जो कि मैट्रिक्स नोटेशन के समान है। ।x

x2¯=aan
ATA

ध्यान दें, कि यदि चर का नमूना मतलब शून्य है, तो चर वर्ग के माध्य के बराबर है: जो अनुरूप है । यही कारण है कि पीसीए में आपको शून्य माध्य की आवश्यकता होती है, और क्यों दिखाता है, आखिरकार पीसीए डेटा सेट के विचरण मैट्रिक्स को विघटित करना है।σ2=E[x2]ATAATA

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.