क्या सहसंबंध एक मैट्रिक्स विलक्षण बनाता है और क्या विलक्षणता या निकट-विलक्षणता के निहितार्थ हैं?


67

मैं विभिन्न मैट्रिसेस (मुख्य रूप से लॉजिस्टिक रिग्रेशन) पर कुछ गणना कर रहा हूं और मुझे आमतौर पर "मैट्रिक्स एकवचन" में त्रुटि मिलती है, जहां मुझे वापस जाना पड़ता है और सहसंबद्ध चर को हटाना पड़ता है। यहाँ मेरा सवाल यह है कि आप "अति" सहसंबद्ध मैट्रिक्स पर क्या विचार करेंगे? क्या इस शब्द का प्रतिनिधित्व करने के लिए सहसंबंध का मूल्य है? जैसे अगर एक वैरिएबल 0.97 एक दूसरे से संबंधित था, तो क्या यह एक "उच्च" है जो एक मैट्रिक्स एकवचन बनाने के लिए पर्याप्त है?

क्षमा याचना यदि प्रश्न बहुत बुनियादी है, तो मैं इस मुद्दे के बारे में बात करते हुए किसी भी संदर्भ को खोजने में सक्षम नहीं था (किसी भी संदर्भ के लिए एक संकेत एक बड़ा प्लस होगा!)।


2
युक्ति: VIF और सहसंबंध के लिए हमारी साइट खोजें ।
whuber

जरूर देखिएगा। चीयर्स।
एरर 1280404

2
@ttnphns ने नीचे एक उत्कृष्ट विवरण प्रदान किया है (कोई आश्चर्य नहीं, यह उसकी विशेषता प्रतीत होती है)। ऐसी स्थिति के एक सरल उदाहरण के लिए जहां आप एक विलक्षण डेटा मैट्रिक्स प्राप्त कर सकते हैं, यह यहां मेरे उत्तर को पढ़ने में मदद कर सकता है: गुणात्मक-चर-कोडिंग-इन-रिग्रेशन-लीड-टू-विलक्षणता
गंग

वास्तव में उसने किया !! वास्तव में मुझे भ्रम के साथ पढ़ने के घंटे बचाया। आपके उदाहरण @gung के लिए धन्यवाद। वह बहुत ही मददगार लोग थे।
एरर 1280404

जवाबों:


101

एकवचन मैट्रिक्स क्या है?

एक वर्ग मैट्रिक्स एकवचन होता है, अर्थात, इसका निर्धारक शून्य होता है, यदि इसमें पंक्तियाँ या स्तंभ होते हैं जो आनुपातिक रूप से परस्पर जुड़े होते हैं; दूसरे शब्दों में, इसकी एक या एक से अधिक पंक्तियाँ (स्तंभ) बिल्कुल स्पष्ट है, जो सभी या कुछ अन्य पंक्तियों (स्तंभों) के रैखिक संयोजन के रूप में है, यह संयोजन एक स्थिर शब्द के बिना है।

उदाहरण के लिए, उदाहरण के लिए, एक मैट्रिक्स - सममित, जैसे कोरेलटन मैट्रिक्स, या असममित। यदि इसकी प्रविष्टियों के संदर्भ में ऐसा प्रतीत होता है कि उदाहरण के लिए है, तो मैट्रिक्स एकवचन है। यदि, एक अन्य उदाहरण के रूप में, इसके , तो फिर से एकवचन है। किसी विशेष मामले के रूप में, यदि किसी पंक्ति में सिर्फ शून्य होता है , तो मैट्रिक्स भी एकवचन होता है क्योंकि कोई भी स्तंभ तब अन्य स्तंभों का रैखिक संयोजन होता है। सामान्य तौर पर, यदि किसी वर्ग मैट्रिक्स की कोई भी पंक्ति (कॉलम) अन्य पंक्तियों (कॉलम) का भारित योग है, तो बाद वाला कोई भी अन्य पंक्तियों (कॉलम) का भारित योग होता है।3×3Acol3=2.15col1Arow2=1.6row14row3A

एकवचन या निकट-एकवचन मैट्रिक्स को अक्सर "बीमार-वातानुकूलित" मैट्रिक्स के रूप में जाना जाता है क्योंकि यह कई सांख्यिकीय डेटा विश्लेषणों में समस्याओं को बचाता है।

क्या डेटा चर के एकवचन सहसंबंध मैट्रिक्स का उत्पादन करते हैं?

क्या बहुभिन्नरूपी डेटा को इसके सहसंबंध या सहसंयोजक मैट्रिक्स को ऊपर वर्णित विलक्षण मैट्रिक्स होना चाहिए? यह तब होता है जब चर के बीच रैखिक निर्भरता होती है। यदि कुछ चर अन्य चर का एक सटीक रैखिक संयोजन है, तो निरंतर अवधि की अनुमति के साथ, चर का सहसंबंध और सहसंयोजक मैट्रिक्स विलक्षण होगा। इसके स्तंभों के बीच ऐसे मैट्रिक्स में देखी गई निर्भरता वास्तव में वैसी ही निर्भरता है, जैसे चर के बाद देखे गए डेटा में चर के बीच निर्भरता (उनके साधन 0 पर लाए गए) या मानकीकृत (यदि हम सहसंबंधी मैट्रिक्स के बजाय सहसंबंध का मतलब है)।

कुछ लगातार विशेष परिस्थितियां जब चर का सहसंबंध / सहसंयोजक मैट्रिक्स विलक्षण होता है: (1) चर की संख्या मामलों की संख्या के बराबर या अधिक होती है; (2) दो या दो से अधिक चर एक स्थिरांक तक; (३) दो चर समान या भिन्न होते हैं केवल माध्य (स्तर) या विचरण (स्केल)।

इसके अलावा, एक डेटासेट में टिप्पणियों का दोहराव मैट्रिक्स को विलक्षणता की ओर ले जाएगा। जितना अधिक बार आप एक मामले को करीब लेते हैं उतना ही विलक्षणता होती है। इसलिए, जब किसी प्रकार के लापता मूल्यों की प्रतिरूपण की जाती है, तो यह हमेशा लाभदायक होता है (सांख्यिकीय और गणितीय दोनों दृष्टि से) प्रतिबाधित डेटा में कुछ शोर जोड़ने के लिए।

ज्यामितीय संपार्श्विकता के रूप में विलक्षणता

ज्यामितीय दृष्टिकोण में, विलक्षणता (बहु) समरूपता (या "शिकायत") है: अंतरिक्ष में वैक्टर (तीरों) के रूप में प्रदर्शित चर, भिन्नता की संख्या की तुलना में कम अंतर वाले अंतरिक्ष में अंतरिक्ष झूठ में प्रदर्शित होते हैं - एक कम जगह में। (उस आयाम को मैट्रिक्स की रैंक के रूप में जाना जाता है ; यह मैट्रिक्स के गैर-शून्य ईजेन्यूवल की संख्या के बराबर है ।)

अधिक दूर या "ट्रान्सेंडैंटल" ज्यामितीय दृश्य में, विलक्षणता या शून्य-निश्चितता (शून्य eigenvalue की उपस्थिति) एक मैट्रिक्स की सकारात्मक निश्चितता और गैर-सकारात्मक निश्चितता के बीच झुकने वाला बिंदु है। जब वैक्टर-चर के कुछ (जो है इतना है कि वे नहीं "में अभिसरण" कर सकते हैं या "पूरी तरह से अवधि" - सहसंबंध / सहप्रसरण मैट्रिक्स) भी कम इयूक्लिडियन स्थान में झूठ बोल "से परे जाना" यूक्लिडियन अब और अंतरिक्ष, गैर सकारात्मक निश्चितता प्रकट होता है , यानी सहसंबंध मैट्रिक्स के कुछ eigenvalues ​​नकारात्मक हो जाते हैं। (गैर सकारात्मक निश्चित मैट्रिक्स के बारे में देखें, उर्फ गैर Gramian यहाँ ।) गैर सकारात्मक निश्चित मैट्रिक्स भी है "बीमार वातानुकूलित" सांख्यिकीय विश्लेषण के कुछ प्रकार के लिए।

प्रतिगमन में संप्रभुता: एक ज्यामितीय स्पष्टीकरण और निहितार्थ

नीचे दी गई पहली तस्वीर में दो भविष्यवाणियों के साथ एक सामान्य प्रतिगमन स्थिति दिखाई देती है (हम रैखिक प्रतिगमन के बारे में बात करेंगे)। चित्र यहाँ से कॉपी किया गया है जहाँ इसे और अधिक विवरण में समझाया गया है। संक्षेप में, मध्यम सहसंबद्ध (= उनके बीच तीव्र कोण होने) भविष्यवक्ता और स्पैन 2- स्पेस "प्लेन X"। आश्रित चर को मौखिक रूप से अनुमानित किया जाता है, जिससे पूर्वानुमानित चर और सेंट के साथ अवशिष्ट निकल जाते हैं । की लंबाई के बराबर विचलन । प्रतिगमन का R- वर्ग और बीच का कोण है , और दो प्रतिगमन गुणांक सीधे स्केच निर्देशांक से संबंधित हैंX1X2YYeYYb1 और , क्रमशः।b2

यहाँ छवि विवरण दर्ज करें

नीचे दी गई तस्वीर पूरी तरह से मिली-जुली भविष्यवाणियों के साथ प्रतिगमन की स्थिति को दिखाती है । और पूरी तरह से सहसंबंधित हैं और इसलिए ये दो वैक्टर संयोग करते हैं और लाइन, 1-आयामी स्थान बनाते हैं। यह एक कम जगह है। गणितीय रूप से, हालांकि, प्लेन एक्स में दो भविष्यवाणियों के साथ प्रतिगमन को हल करने के लिए मौजूद होना चाहिए , - लेकिन विमान को अब परिभाषित नहीं किया गया है, अफसोस। सौभाग्य से, अगर हम विश्लेषण से बाहर दो संपार्श्विक भविष्यवक्ताओं में से किसी एक को छोड़ देते हैं, तो प्रतिगमन को केवल इसलिए हल किया जाता है क्योंकि एक-प्रतिपादक प्रतिगमन को एक-आयामी भविष्यवक्ता स्थान की आवश्यकता होती है। हम भविष्यवाणी और त्रुटि देखते हैंX1X2वाई Yeउस (एक-भविष्यवक्ता) प्रतिगमन पर, चित्र पर खींचा गया। वहाँ अन्य दृष्टिकोण के रूप में अच्छी तरह से मौजूद हैं, इसके अलावा, चरों को छोड़ने के लिए, कोलीनियरिटी से छुटकारा पाने के लिए।

यहाँ छवि विवरण दर्ज करें

नीचे दी गई अंतिम तस्वीर लगभग मिली-जुली भविष्यवाणियों के साथ एक स्थिति प्रदर्शित करती है । यह स्थिति अलग है और थोड़ा अधिक जटिल और गंदा है। और (दोनों को फिर से नीले रंग में दिखाया गया है) कसकर सहसंबंधित है और लगभग संयोग है। लेकिन अभी भी बीच में एक छोटा कोण है, और गैर-शून्य कोण के कारण, विमान एक्स को परिभाषित किया गया है (चित्र पर यह विमान पहली तस्वीर पर विमान की तरह दिखता है)। इसलिए, गणितीय रूप से प्रतिगमन को हल करने के लिए कोई समस्या नहीं है। यहां जो समस्या पैदा होती है वह एक सांख्यिकीय है।X1X2

यहाँ छवि विवरण दर्ज करें

आमतौर पर हम आर-वर्ग और जनसंख्या में गुणांक के बारे में अनुमान लगाने के लिए प्रतिगमन करते हैं। सैंपल से लेकर सैंपल तक डाटा थोड़ा भिन्न होता है। इसलिए, यदि हम एक और नमूना लेते हैं, तो दो भविष्यवक्ता वैक्टरों का रस-विन्यास थोड़ा बदल जाएगा, जो सामान्य है। "सामान्य" नहीं है कि निकट कोलीनियरिटी के तहत यह विनाशकारी परिणाम की ओर जाता है। कल्पना कीजिए कि विमान एक्स से परे, बस थोड़ा नीचे गिरा है - जैसा कि ग्रे वेक्टर द्वारा दिखाया गया है। क्योंकि दो भविष्यवक्ताओं के बीच के कोण इतना छोटा था, विमान एक्स, जिसके माध्यम से आ जाएगा और उस के माध्यम से हो गए जाएगा काफी इस प्रकार पुराने विमान एक्स से अलग है, क्योंकि औरX1एक्स 2 एक्स 1 एक्स 1 एक्स 2X2X1X1X2बहुत सहसंबद्ध हैं हम एक ही आबादी से अलग नमूनों में बहुत अलग विमान एक्स की उम्मीद करते हैं। जैसा कि विमान एक्स अलग है, भविष्यवाणियां, आर-स्क्वायर, अवशिष्ट, गुणांक - सब कुछ अलग हो जाता है, भी। यह तस्वीर पर अच्छी तरह से देखा गया है, जहां विमान एक्स कहीं 40 डिग्री पर आ गया। उस तरह की स्थिति में, अनुमान (गुणांक, आर-स्क्वायर आदि) बहुत अविश्वसनीय हैं जो तथ्य उनकी विशाल मानक त्रुटियों द्वारा व्यक्त किया गया है। और इसके विपरीत, भविष्यवक्ताओं के मिलीभगत से दूर होने के कारण, अनुमान विश्वसनीय हैं क्योंकि पूर्वानुमानकर्ताओं द्वारा फैलाया गया स्थान डेटा के उतार-चढ़ाव के नमूने के लिए मजबूत है।

पूरे मैट्रिक्स के एक समारोह के रूप में Collinearity

यहां तक ​​कि दो चर के बीच एक उच्च सहसंबंध, अगर यह 1 से नीचे है, तो जरूरी नहीं कि पूरे सहसंबंध मैट्रिक्स एकवचन बना; यह बाकी सहसंबंधों पर भी निर्भर करता है। उदाहरण के लिए यह सहसंबंध मैट्रिक्स:

1.000     .990     .200
 .990    1.000     .100
 .200     .100    1.000

.00950कई सांख्यिकीय विश्लेषणों में योग्य माने जाने वाले निर्धारक जो अभी तक 0 से काफी अलग हैं। लेकिन यह मैट्रिक्स:

1.000     .990     .239
 .990    1.000     .100
 .239     .100    1.000

निर्धारक है .00010, 0 के करीब की डिग्री।

Collinearity diagnostics: आगे पढ़ना

सांख्यिकीय डेटा विश्लेषण, जैसे कि प्रतिगमन, विश्लेषण से कुछ चर या मामलों को छोड़ने या अन्य चिकित्सा साधनों को पूरा करने पर विचार करने के लिए पर्याप्त रूप से संपार्श्विकता का पता लगाने के लिए विशेष सूचक और उपकरण शामिल करते हैं। कृपया "इस साइट को शामिल करें" ("साइटिनियरिटी डायग्नोस्टिक्स", "मल्टीकोलिनरिटी", "विलक्षणता / कोलीनियरिटी टॉलरेंस", "कंडीशन इंडेक्स", "विचरण विघटन अनुपात", "विचरण मुद्रास्फीति कारक (VIF)")।


3
इस विस्तृत विवरण के लिए धन्यवाद। यह इस विषय को समझने की कोशिश करने वाले किसी भी व्यक्ति के लिए एक आदर्श रूपरेखा है। आपके द्वारा सुझाए गए शीर्षकों के बारे में मैं और अधिक पढ़ूंगा। यह बहुत सराहा गया है :)
त्रुटि404

3
जबरदस्त अन्वेषण, मुझे आपके द्वारा किए गए परिवर्धन के लिए फिर से धन्यवाद देना होगा। वास्तव में बहुत जानकारीपूर्ण।
Error404

4
इस मुद्दे को समझने के लिए ज्यामितीय स्पष्टीकरण और संबद्ध आंकड़े वास्तव में सहायक हैं।
गंग

1
मुझे लगता है कि यह एक बहुत पुरानी पोस्ट है ... लेकिन मुझे यह जानकर अच्छा लगेगा कि आपने @ttnphns के साथ उन ज्यामितीय ग्राफिक्स का क्या किया ... एक तरफ ऐसा लग रहा है कि यह एमएस पेंट भी हो सकता था, लेकिन वे बस हैं इतना अच्छा
पॉल

@Paul ने क्या कहा !!!
abalter
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.