सहसंयोजक मैट्रिक्स से "विचरण" का एक उपाय?


17

यदि डेटा 1d है, तो विचरण यह दर्शाता है कि डेटा बिंदु एक दूसरे से किस हद तक भिन्न हैं। यदि डेटा बहुआयामी है, तो हमें एक सहसंयोजक मैट्रिक्स मिलेगा।

क्या कोई उपाय है जो एक ही नंबर देता है कि बहु-आयामी डेटा के लिए सामान्य रूप से डेटा बिंदु एक दूसरे से कैसे भिन्न हैं?

मुझे लगता है कि पहले से ही कई समाधान हो सकते हैं, लेकिन मुझे उनके लिए खोज करने के लिए सही शब्द का उपयोग करने का यकीन नहीं है।

हो सकता है कि मैं कुछ ऐसा कर सकता हूं जैसे कि कोवरियन मैट्रिक्स के आइगेनवेल्यूज़ को जोड़ना, क्या वह ध्वनि समझदार है?


2
सहसंयोजक मैट्रिक्स के निर्धारक। मैं जल्द ही एक और fleshed बाहर जवाब पोस्ट करेंगे।
user603

5
ट्रेस का उपयोग अक्सर किया जाता है। पीसीए में, प्रत्येक घटक द्वारा समझाया गया विचरण का अंश "कुल विचरण" का एक अंश है जिसे सहसंयोजक मैट्रिक्स के ट्रेस के रूप में परिभाषित किया गया है। @ user603 आपके उत्तर की प्रतीक्षा कर रहा है।
अमीबा का कहना है कि मोनिका

2
adding up the eigenvalues of the covariance matrixऊपर बताए गए अमीबा के निशान के बराबर है।
ttnphns

क्या उपाय / के लिए इस्तेमाल किया जा रहा था?
HelloGoodbye

@HelloGoodbye हाय वास्तव में मेरे पास लेबल के साथ कुछ [शोर] डेटा है, और मैं पहले से मानता हूं कि एक ही श्रेणी के भीतर [सच] डेटा बिंदु बहुत अलग नहीं होने चाहिए। मैं प्रत्येक श्रेणी के भीतर डेटा बिंदुओं के अंतर की डिग्री को मापने का एक तरीका खोज रहा हूं, ताकि मुझे यह पता चल सके कि प्रत्येक श्रेणी के लिए डेटा कितना शोर है।
नॉट्लू

जवाबों:


16

(नीचे दिया गया उत्तर केवल प्रमेय का परिचय देता है और बताता है [0] में साबित किया गया है। उस पत्र में सुंदरता यह है कि अधिकांश तर्क बुनियादी रेखीय बीजगणित के संदर्भ में किए गए हैं। इस प्रश्न का उत्तर देने के लिए मुख्य परिणाम बताना पर्याप्त होगा लेकिन हर तरह से, मूल स्रोत की जाँच करें)।

किसी भी स्थिति में जहां डेटा के बहुभिन्नरूपी पैटर्न का वर्णन वैरिएबल अण्डाकार वितरण, सांख्यिकीय अनुमान द्वारा किया जा सकता है , परिभाषा के अनुसार, फिटिंग का झंझट (और चरित्र चित्रण) की समस्या को कम करके k वैरिएंट लोकेशन वेक्टर (say और k ) कहलाता है k सममित अर्द्ध सकारात्मक निश्चित मैट्रिक्स (कहते हैं कि Σ ) के आंकड़ों के। कारणों के लिए मैं नीचे समझाएँ (लेकिन जो आप पहले से ही परिसर के रूप में मानते हैं) यह अक्सर अधिक सार्थक विघटित हो जाएगा Σ एक आकार घटक (के रूप में एक ही आकार के एक SPSD मैट्रिक्स में Σ ) अपने मल्टीवेरिएट वितरण का घनत्व आकृति के आकार के लिए लेखांकन और एक अदिश σ एसkkθkkΣΣΣσS इन आकृति के पैमाने को व्यक्त करना।

Univariate डेटा में ( ), Σ , अपने डेटा के सहप्रसरण मैट्रिक्स एक अदिश है और, जैसा कि नीचे चर्चा से पालन करेंगे, के आकार घटक Σ 1 ताकि है Σ के बराबर होती है अपने पैमाने घटक Σ = σ एस हमेशा और कोई अस्पष्टता संभव नहीं है।k=1ΣΣΣΣ=σS

मल्टीवेरिएट डेटा में, कार्यों स्केलिंग के कई विकल्प संभव हो रहे हैं। विशेष रूप से एक ( σ एस = | ΣσS ) एक प्रमुख वांछनीय स्वामित्व होने में बाहर खड़ा है। यह इसे अण्डाकार परिवारों के संदर्भ में स्केलिंग कारक का पसंदीदा विकल्प बनाना चाहिए।σS=|ΣΣ|1/k


एमवी आंकड़ों में कई समस्याओं, एक बिखराव मैट्रिक्स के आकलन को शामिल एक समारोह (अल) के रूप में परिभाषित में सममित अर्द्ध सकारात्मक निश्चित आर कश्मीर × कश्मीर और संतोषजनक:ΣRk×k

(के लिए गैर विलक्षण मैट्रिक्स एक और वैक्टर )। उदाहरण के लिए सहसंयोजक का शास्त्रीय अनुमान संतुष्ट करता है (0), लेकिन यह केवल किसी भी तरह से नहीं है।

(0)Σ(AX+b)=AΣ(X)A
Ab

अण्डाकार वितरित डेटा की उपस्थिति में, जहां सभी घनत्व समता समान आकृति मैट्रिक्स द्वारा परिभाषित अंडाकार होते हैं, एक स्केलर द्वारा गुणन तक, फॉर्म के के सामान्यीकृत संस्करणों पर विचार करना स्वाभाविक है :Σ

VS=Σ/S(Σ)

जहां एक 1-सम्मानजनक कार्य संतोषजनक है:S

(1)S(λΣ)=λS(Σ)

सभी के लिए । फिर, वी एस बिखराव मैट्रिक्स के आकार घटक (लघु आकार मैट्रिक्स में) कहा जाता है और σ एस = एस 1 / 2 ( Σ ) बिखराव मैट्रिक्स के पैमाने घटक कहा जाता है। बहुभिन्नरूपी आकलन समस्याओं के उदाहरण जहां नुकसान का कार्य केवल इसके आकार घटक V S के माध्यम से ari पर निर्भर करता हैλ>0VSσS=S1/2(Σ)ΣVS , अन्य लोगों में गोलाकार, PCA और CCA के परीक्षण शामिल हैं।

बेशक, कई संभावित स्केलिंग फ़ंक्शन हैं इसलिए यह अभी भी खुले का सवाल छोड़ता है कि सामान्यीकरण फ़ंक्शन के कई विकल्पों में से क्या (यदि कोई है) कुछ अर्थों में इष्टतम है। उदाहरण के लिए:S

  • (उदाहरण के लिए ओ पी के प्रश्न के नीचे उसकी टिप्पणी में @amoeba द्वारा प्रस्तावित एक। यह भी देखें [1], [2], [3])S=tr(Σ)/k
  • ([4], [5], [6], [7], [8])S=|Σ|1/k
  • (सहसंयोजक मैट्रिक्स की पहली प्रविष्टि)Σ11
  • (के पहले eigenvalue Σ )λ1(Σ)Σ

हालाँकि, एकमात्र स्केलिंग फ़ंक्शन है जिसके लिए स्थानीय और विषम रूप से सामान्य परिवारों में, स्केल और आकृति के संगत अनुमानों के लिए फ़िशर सूचना मैट्रिक्स, ब्लॉक विकर्ण हैं (यह अनुमान समस्या का पैमाना और आकार घटक हैं asymotically orthogonal हैं) [0] ]। इसका मतलब है, अन्य बातों के अलावा, कि पैमाने एस = | Σ | 1 / कश्मीर का ही विकल्प है एस जिसके लिए गैर विनिर्देश σ एस जब पर अनुमान प्रदर्शन दक्षता के किसी भी हानि का कारण नहीं है वी एसS=|Σ|1/kS=|Σ|1/kSσSVS

मैं संतुष्ट (1) के कई संभावित विकल्पों में से किसी के लिए किसी भी तुलनात्मक रूप से मजबूत अनुकूलता लक्षण वर्णन के बारे में नहीं जानता ।S

  • [०] पेनडावाइन, डी।, आकार की एक विहित परिभाषा, सांख्यिकी और संभाव्यता पत्र, खंड ave, अंक १४, १ अक्टूबर २०० 14, पृष्ठ २२४०-२२४।। अनगढ़ लिंक
  • [१] डम्बगेन, एल। (१ ९९ gen)। टायलर के एम-फंक्शनल ऑफ़ हाई डायमेंशन, एन में। Inst। सांख्यिकीविद। गणित। 50, 471-491।
  • [२] ओलीला, ई।, टीपी हेतमेंस्परपर, और एच। ओजा (२००४)। Affivariant बहुभिन्नरूपी संकेत तरीके। प्रीप्रिंट, यूनिवर्सिटी ऑफ ज्योतिस्कला।
  • [३] टायलर, डीई (१ ९ er३)। तितर बितर matrices की गतिशीलता और दक्षता गुण, Biometrika 70, 411–420।
  • [४] डंबगेन, एल।, और डी टायलर (२००५)। कुछ बहुभिन्नरूपी एम-फंक्शंस के टूटने के गुणों पर, स्कैंड। जे। स्टेटिस्ट। 32, 247–264।
  • [५] हॉलिन, एम। और डी। पेनडावाइन (२००))। तितर बितर, ऐन की समरूपता के लिए इष्टतम रैंक-आधारित परीक्षण। सांख्यिकीय।, प्रकट होने के लिए।
  • [६] सालिबियन-बैरेरा, एम।, एस। वान एलेस्ट, और जी। विल्म्स (२०० ६)। तेज और मजबूत बूटस्ट्रैप, जे। आमेर के साथ बहुभिन्नरूपी एमएम-आकलनकर्ताओं पर आधारित प्रमुख घटक विश्लेषण। सांख्यिकीविद। Assoc। 101, 1198–1211।
  • [[] टास्किनन, एस।, सी। क्रौक्स, ए। कांकैनन, ई। ओलीला और एच। ओ। जे। (२००६)। तितर बितर और आकार matrices, जे। बहुभिन्नरूपी गुदा के आधार पर विहित सहसंबंध और वेक्टर अनुमानों की प्रभावकारिता और कार्यकुशलता। 97, 359–384।
  • [[] ततसुओका, केएस, और डी टायलर (२०००)। गैर-विशिष्ट वितरण के तहत एस-फ़ंक्शनल और एम-फ़ंक्शंस की विशिष्टता पर, एन। सांख्यिकीविद। 28, 1219–1243।

1
इसके अलावा, क्योंकि यह रोटेशन-अपरिवर्तनीय नहीं है ... पैमाने घटक के लिए एक अजीब विकल्प हैΣ11
अमीबा को फिर से बहाल मोनिका का कहना है

जानबूझकर जवाब देने के लिए धन्यवाद! यह पूरी तरह से इसे समझने के लिए मुझे कुछ समय लगेगा हालांकि :)
नॉटुएलो जूला

@amoeba: के लिए आवेदन किया एक्सΣ । मैं एक्स को गिराता हूंXX शेष उत्तर में X क्योंकि कोई भ्रम संभव नहीं है। मैं मानता हूँ यह थोड़ा अनाड़ी है तो मैं अब प्रयोग Σ ( एक्सXX । मैं आपकी दूसरी टिप्पणी से सहमत हूं। एक ही tocken तक λ 1 ( Σ ) rescaling को अपरिवर्तनीय नहीं है। इस अर्थ में S पर रखा गया समरूपता अवरोधबहुत कम बार है। Σ(XX)λ1(Σ)S
user603

रुको; क्यों कोई चाहता है या पैमाने घटक घटक rescaling के लिए अपरिवर्तनीय होने की उम्मीद करेगा ??
अमीबा का कहना है कि

क्षमा करें, मैं मतलब अगर आप का उपयोग समारोह स्केलिंग के रूप में तो परिणामी मैट्रिक्स नहीं है rescaling को equivariant। λ1(Σ)
user603

11

स्केलर वेरिएबल के विचरण को इसके माध्य से चर के विचलन के रूप में परिभाषित किया गया है:

Var(X)=E[(XE[X])2]

वेक्टर-मूल्यवान यादृच्छिक चर के लिए स्केलर-वेल्यूड वेरिएंट के लिए एक सामान्यीकरण को यूक्लिडियन दूरी के रूप में विचलन की व्याख्या करके प्राप्त किया जा सकता है :

Vars(X)=E[XE[X]22]

इस अभिव्यक्ति को फिर से लिखा जा सकता है

Vars(X)=E[(XE[X])(XE[X])]=E[i=1n(XiE[Xi])2]=i=1nE[(XiE[Xi])2]=i=1nVar(Xi)=i=1nCii

जहां कोवरिसियस मैट्रिक्स है। अंत में, इसे सरल बनाया जा सकता हैC

Vars(X)=tr(C)

जो कोविरेसी मैट्रिक्स का पता लगाता है।


4

हालाँकि कोविरेस मैट्रिक्स, ट्रा (C) का ट्रेस , आपको कुल विचरण का एक माप देता है, यह चर के बीच संबंध को ध्यान में नहीं रखता है।

यदि आपको समग्र विचरण के एक माप की आवश्यकता होती है जो तब होता है जब आपके चर एक दूसरे से स्वतंत्र होते हैं और बहुत छोटे होते हैं जब चर अत्यधिक सहसंबद्ध होते हैं, तो आप सहसंयोजक मैट्रिक्स के निर्धारक का उपयोग कर सकते हैं ; सी |

कृपया इस लेख को बेहतर स्पष्टीकरण के लिए देखें ।


4

यदि आपको केवल एक संख्या की आवश्यकता है, तो मैं एक कोवरियन मैट्रिक्स का सबसे बड़ा आयतन मान सुझाता हूं। यह पीसीए में पहले प्रमुख घटक का एक समझाया गया विचरण भी है। यह बताता है कि यदि आप अपने वेक्टर की आयामीता को एक तक कम कर देते हैं तो कुल विचरण को कितना समझाया जा सकता है। इस उत्तर को गणित एसई पर देखें ।

यह विचार कि आप अपने वेक्टर को एक श्रृंखला में रैखिक रूप से सभी चर मिलाकर जोड़ते हैं। आप 1 डी समस्या के साथ समाप्त होते हैं।

समझाया गया विचरण कुल प्रसरण के लिए% शब्दों में बताया जा सकता है। इस मामले में आप तुरंत देखेंगे कि श्रृंखला के बीच बहुत सारे रैखिक संबंध हैं। कुछ अनुप्रयोगों में यह संख्या 80% और अधिक हो सकती है, उदाहरण के लिए वित्त में ब्याज दर वक्र मॉडलिंग। इसका मतलब है कि आप चर के एक रैखिक संयोजन का निर्माण कर सकते हैं जो सभी चर के 80 संस्करण की व्याख्या करता है।


3

सूचना सिद्धांत से एन्ट्रापी अवधारणा उद्देश्य के अनुरूप प्रतीत होती है, सूचना सामग्री की अप्रत्याशितता के एक उपाय के रूप में, जो इसके द्वारा दी गई है

एच(एक्स)=-पी(एक्स)लॉगपी(एक्स)एक्स

यदि हम एक बहुभिन्नरूपी गौसियन वितरण के लिए मानते हैं पी(एक्स) मतलब के साथ μ और सहसंयोजक Σविकिपीडिया के अनुसार, डेटा से व्युत्पन्न , तो अंतर एन्ट्रापी है,

एच(एक्स)=12लॉग((2π)ndet(Σ))
कहाँ पे nआयामों की संख्या है। चूंकि मल्टीवीरेट गॉसियन वह वितरण है जो दिए गए सहसंयोजक के लिए अंतर एन्ट्रापी को अधिकतम करता है , यह सूत्र किसी दिए गए विचरण के साथ अज्ञात वितरण के लिए एक एंट्रॉपी ऊपरी बाउंड देता है।

And it depends on the determinant of the covariance matrix, as @user603 suggests.


This answer doesn't seem to be in the same spirit as the question. Covariances and variances are properties of any distribution (although they might be infinite or undefined in some cases), whereas this answer focuses on an exceedingly special case of a multivariate Normal distribution. It therefore doesn't apply to most of the situations implicitly envisioned in the question. Could you perhaps elaborate on the sense in which your answer could be construed as providing some useful guidance in the general case where the data aren't necessarily Normal?
whuber

@whuber thanks for the suggestion i guess maybe i should rewrite Gaussian as "the distribution that maximizes the entropy given a variance"? then the result will become some upper bound. what do you think?
dontloo

That sounds like it's going somewhere useful and more general.
whuber

1
I guess there are many ways to skin a cat;). I actually thing the link between your answer and mine are very strong. I have a minor quibble; I think the determinant has some optimality property for the problem you try to solve (and need not just be chosen on grounds of familiarity) and I think these optimality properties extend beyond covariance matrices (they hold for the determinant of whatever scatter functional you happen to chose and there are many out there) and extend beyond the Gaussian distribution (to the whole elliptical family).
user603
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.