एक गैर सकारात्मक निश्चित सहसंयोजक मैट्रिक्स मुझे अपने डेटा के बारे में क्या बताता है?


21

मेरे पास कई बहुभिन्नरूपी अवलोकन हैं और सभी चरों पर संभाव्यता घनत्व का मूल्यांकन करना चाहते हैं। यह माना जाता है कि डेटा सामान्य रूप से वितरित किया जाता है। चरों की कम संख्या पर सब कुछ काम करता है जैसा कि मैं उम्मीद करता हूं, लेकिन अधिक संख्या में परिणाम से कोविरियस मैट्रिक्स में गैर-सकारात्मक निश्चितता बन जाती है।

मैंने मतलाब में समस्या को कम किया है:

load raw_data.mat; % matrix number-of-values x number of variables
Sigma = cov(data);
[R,err] = cholcov(Sigma, 0); % Test for pos-def done in mvnpdf.

यदि 0> गलत है तो सिग्मा सकारात्मक निश्चित नहीं है।

क्या ऐसा कुछ है जो मैं अपने प्रयोगात्मक डेटा का उच्च आयामों पर मूल्यांकन करने के लिए कर सकता हूं? क्या यह मुझे मेरे डेटा के बारे में कुछ उपयोगी बताता है?

अगर मैं कुछ स्पष्ट याद कर रहा हूँ तो मैं इस क्षेत्र में कुछ शुरुआत कर रहा हूँ इसलिए माफी माँगता हूँ।


ऐसा लगता है कि आपके डेटा उच्च-आयाम अभ्यावेदन के लिए बहुत कम हैं। क्या आप इस डेटा के साथ प्रतिगमन मॉडल चलाने की योजना बना रहे हैं?
जोनाथन थिएले

जवाबों:


30

सहसंयोजक मैट्रिक्स सकारात्मक निश्चित नहीं है क्योंकि यह एकवचन है। इसका मतलब है कि आपके कम से कम एक चर को दूसरों के रैखिक संयोजन के रूप में व्यक्त किया जा सकता है। आपको सभी चर की आवश्यकता नहीं है क्योंकि कम से कम एक का मूल्य दूसरों के सबसेट से निर्धारित किया जा सकता है। मैं सुझाव देता हूं कि चर को क्रमिक रूप से जोड़ा जाए और प्रत्येक चरण पर सहसंयोजक मैट्रिक्स की जांच की जाए। यदि एक नया चर एक विलक्षणता बनाता है, तो इसे छोड़ दें और अगले पर जाएं। अंततः आपके पास एक निश्चित निश्चित सहसंयोजक मैट्रिक्स के साथ चर का एक सबसेट होना चाहिए।


19
+1। यह भी ध्यान देने योग्य है कि सभी सहसंयोजक matrices सकारात्मक निश्चित हैं और सभी सकारात्मक निश्चित matrices कुछ बहुभिन्नरूपी वितरण के सहसंयोजक मैट्रिक्स हैं। इसलिए, "गैर-सकारात्मक निश्चित सहसंयोजक मैट्रिक्स" कहना एक ऑक्सीमोरोन का एक सा है। ऐसा प्रतीत होता है कि ओपी वास्तव में सिर्फ यह कह रहा था कि नमूना सहसंयोजक मैट्रिक्स विलक्षण था जो कि बिल्कुल समरूपता (जैसा कि आपने कहा है) से हो सकता है या जब टिप्पणियों की संख्या चर की संख्या से कम हो
मैक्रो

3
कुछ आँकड़े सॉफ़्टवेयर को स्वचालित रूप से इस समस्या को ठीक करने के लिए प्रेरित किया जा सकता है। उदाहरण के लिए, स्टैटा की regressकमांड स्वचालित रूप से अतिरिक्त चरों को छोड़ देगी जब कुछ कोलीनर होते हैं (और इसके आउटपुट को ऐसे रूप में सहेजा जा सकता है जो इन चरों की पहचान करता है और भविष्य में उपयोग के लिए गैर-कोलीनियर सबसेट को चिह्नित करता है)। एक संभावित जटिलता, हालांकि, यह है कि चर जरूरी नहीं हो सकते हैं, लेकिन वे काफी करीब हो सकते हैं कि चॉल्स्की अपघटन में फ्लोटिंग पॉइंट त्रुटि का प्रचार नकारात्मक आइजेनवेल अनुमान लगाता है, जिससे चर सभी व्यावहारिक उद्देश्यों के साथ मेल खाते हैं।
whuber

1
@ जब भी, समान कार्यक्षमता होती है R- प्रतिगमन मॉडल स्वचालित रूप से रैखिक भविष्यवक्ता से चर को गिरा देते हैं यदि सटीक समतुल्यता हो।
मैक्रों

2
@ वाउबर, यह थोड़ा हैकी है लेकिन आप एक समान ट्रिक कर सकते हैं। यदि gआपका रैखिक मॉडल है, तो colnames(model.matrix(g))[-which(is.na(coef(g))==TRUE)][-1]मॉडल में दर्ज किए गए भविष्यवाणियों के नाम वापस करना चाहिए जो बिल्कुल समान नहीं हैं। यह जांचने से काम करता है कि कौन से गुणांक थे NA(यह Rबताता है कि एक चर कैसे गिरा दिया गया था), और मॉडल मैट्रिक्स के संबंधित कॉलम नाम (अवरोधन कॉलम को हटाते हुए) का पता लगाना। वैसे, यह काम नहीं करेगा अगर कोई मिलीभगत की शर्तें नहीं हैं, तो एक बयान अगर यह जांचने के लिए कि which(is.na(coef(g))==TRUE)खाली नहीं है आवश्यक है :)
मैक्रो

8
@ मैक्रो सभी सहसंयोजक मैट्रिक्स सकारात्मक अर्ध-निश्चित हैं। जब वे एकवचन होते हैं तो वे सकारात्मक निश्चित नहीं होते हैं क्योंकि मैट्रिक्स A के लिए सभी वैक्टर x के लिए x'Ax> 0 सकारात्मक निश्चित होते हैं। एकवचन मामले में x'x = 0 कुछ x के लिए होता है।
माइकल आर। चेरनिक

0

यह एक वैध परिणाम है। सहसंयोजक मैट्रिक्स के उस घटक का अनुमान शून्य है, जो बहुत अच्छी तरह से सच हो सकता है! यह गणना कठिनाइयों को जन्म दे सकता है, लेकिन आर में कुछ एल्गोरिदम (मुझे मटलब के बारे में पता नहीं है) इसे संभाल सकते हैं। मुझे समझ में नहीं आता है कि लोग इस बारे में क्यों परेशान हो जाते हैं और अधिक आदर्शवादी मॉडल फिट करने पर जोर देते हैं।


-1

एक बिंदु जो मुझे नहीं लगता है कि ऊपर वर्णित है, यह संभव है कि अनुभवजन्य डेटा से गैर-सकारात्मक निश्चित सहसंयोजक मैट्रिक्स की गणना करना संभव है, भले ही आपके चर पूरी तरह से रैखिक रूप से संबंधित न हों। यदि आपके पास पर्याप्त डेटा नहीं है (विशेषकर यदि आप युग्मक तुलनाओं के एक समूह से उच्च-आयामी सहसंयोजक मैट्रिक्स का निर्माण करने की कोशिश कर रहे हैं) या यदि आपका डेटा एक बहुभिन्नरूपी सामान्य वितरण का पालन नहीं करता है, तो आप विरोधाभासी संबंधों के साथ समाप्त हो सकते हैं चर के बीच, जैसे कोव (ए, बी)> 0; cov (ए, सी)> 0; cov (बी, सी) <0।

ऐसे मामले में, एक बहुभिन्नरूपी सामान्य पीडीएफ को फिट नहीं कर सकता है, क्योंकि इन मानदंडों को पूरा करने वाला कोई बहुभिन्नरूपी सामान्य वितरण नहीं है - कोव (ए, बी)> 0 और कोव (ए, सी)> 0 जरूरी है कि कोव (बी, सी) )> 0।

यह सब कहना है, एक गैर-सकारात्मक निश्चित मैट्रिक्स का हमेशा यह मतलब नहीं है कि आप कोलियर वेरिएबल्स सहित हैं। यह यह भी सुझाव दे सकता है कि आप एक ऐसे रिश्ते को बनाने की कोशिश कर रहे हैं जो असंभव है जिसे आपने चुना है।


1
इतने सारे स्तरों पर आपका जवाब गलत है। किसी भी तरह, विकर्ण पर 1 के साथ एक सहसंयोजक मैट्रिक्स पर विचार करें, और 1/2 के लिए कोव (1 और 2 घटकों), 1/2 के लिए कोव (1 और 3 घटकों), और -1/2 के लिए कोव (2 और 3 डी घटकों) । सहसंयोजक मैट्रिक्स में लगभग 0.15, 1.35, 1.50 के स्वदेशी गुण हैं, जो आपके दूसरे पैराग्राफ में दावे को प्रतिपक्ष प्रदान करता है।
मार्क एल। स्टोन

@ MarkL.Stone, आप दूसरे पैराग्राफ के बारे में सही हैं, लेकिन मुझे आश्चर्य है कि अगर इसमें से कुछ अस्पष्ट है और एक उदार व्याख्या के तहत बचाया जा सकता है। उदाहरण के लिए, मुझे आश्चर्य है कि, पैराग्राफ 1 में, "पर्याप्त डेटा नहीं है ... जोड़ीदार तुलनाओं के एक समूह से एक उच्च-आयामी सहसंयोजक मैट्रिक्स का निर्माण करने की कोशिश करना" बहुत सारे लापता डेटा का उपयोग करने और युग्मक पूर्ण टिप्पणियों का उपयोग करने को संदर्भित करता है। कोवरियन मैट्रिक्स में प्रत्येक तत्व की गणना करने के लिए।
गुंग - को पुनः स्थापित मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.