सहसंबंध मैट्रिक्स की गणना करते समय लापता मूल्यों के साथ टिप्पणियों को छोड़ने के साथ एक गंभीर समस्या है?


12

मेरे पास 2500 चरों और 142 प्रेक्षणों जैसे विशाल डेटा सेट हैं।

मैं चर एक्स और बाकी चर के बीच एक सहसंबंध चलाना चाहता हूं। लेकिन कई स्तंभों के लिए, प्रविष्टियाँ गायब हैं।

मैंने "जोड़ी-पूर्ण" तर्क ( use=pairwise.complete.obs) का उपयोग करके आर में ऐसा करने की कोशिश की और इसने सहसंबंधों का एक गुच्छा तैयार किया। लेकिन तब StackOverflow पर किसी ने इस लेख के लिए एक लिंक पोस्ट किया http://bwlewis.github.io/covar/missing.html और यह R- में "जोड़ी-पूर्ण" विधि को अनुपयोगी बनाता है।

मेरा प्रश्न: मुझे कैसे पता चलेगा कि "जोड़ी-पूर्ण" विकल्प का उपयोग करना उचित है?

मेरी use = complete.obsवापसी हुई no complete element pairs, इसलिए यदि आप समझा सकते हैं कि इसका क्या मतलब है, तो यह बहुत अच्छा होगा।


4
जानने के लिए एक क्लासिक कहानी अब्राहम वाल्ड की कहानी और द्वितीय विश्व युद्ध में विमानों में कवच जोड़ने का सवाल है । आपका डेटा क्यों गायब है, इसकी कुछ समझ होना जरूरी है।
मैथ्यू गन

जवाबों:


11

जोड़ीदार संपूर्ण टिप्पणियों पर सहसंबंध के साथ मुद्दा

आपके द्वारा वर्णित मामले में, मुख्य मुद्दा व्याख्या है। क्योंकि आप युग्मक पूर्ण टिप्पणियों का उपयोग कर रहे हैं, आप वास्तव में प्रत्येक सहसंबंध के लिए थोड़ा अलग डेटासेट का विश्लेषण कर रहे हैं, जिसके आधार पर अवलोकन गायब हैं।

निम्नलिखित उदाहरण पर विचार करें:

a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA) 

डेटासेट में तीन चर, a, b, और c, प्रत्येक कुछ याद आ रही मान होते हैं। यदि आप यहां चर के जोड़े पर सहसंबंधों की गणना करते हैं, तो आप केवल उन मामलों का उपयोग करने में सक्षम होंगे, जिनमें दोनों चर के लापता मान नहीं हैं। इस मामले में, इसका मतलब है कि आप के बीच सहसंबंध के लिए सिर्फ पिछले 3 मामलों का विश्लेषण कर रहे हैं aऔर b, के बीच सहसंबंध के लिए सिर्फ पहले तीन मामलों bऔर c, आदि।

तथ्य यह है कि आप प्रत्येक सहसंबंध की गणना करते समय पूरी तरह से अलग-अलग मामलों का विश्लेषण कर रहे हैं इसका मतलब है कि सहसंबंधों के परिणामस्वरूप पैटर्न निरर्थक लग सकता है। देख:

> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289

एक तार्किक विरोधाभास की तरह यह दिखता है --- aऔर bदृढ़ता से सकारात्मक सहसंबद्ध होते हैं, और bऔर cभी दृढ़ता से सकारात्मक सहसंबद्ध होते हैं, तो आप उम्मीद करेंगे aऔर cसकारात्मक साथ ही जोड़ा जा सकता है, लेकिन वहाँ वास्तव में विपरीत दिशा में एक मजबूत सहयोग है। आप देख सकते हैं कि बहुत सारे विश्लेषकों को यह पसंद क्यों नहीं है।

व्हीबर से उपयोगी स्पष्टीकरण शामिल करने के लिए संपादित करें:

ध्यान दें कि तर्क का हिस्सा "मजबूत" सहसंबंध पर निर्भर करता है। इसके लिए काफी हद तक संभव है aऔर bसाथ ही साथ bऔर c"दृढ़ता से सकारात्मक सहसंबद्ध" किया जाना है, जबकि वहाँ के बीच एक "विपरीत दिशा में मजबूत सहयोग" मौजूद है aऔर cइस उदाहरण में, लेकिन काफी नहीं के रूप में चरम। इस मामले की जड़ यह है कि अनुमानित सहसंबंध (या सहसंयोजक) मैट्रिक्स सकारात्मक-निश्चित नहीं हो सकता है: यह है कि किसी को "मजबूत" की मात्रा निर्धारित करनी चाहिए।

लापता होने के प्रकार के साथ मुद्दा

आप अपने आप से सोच रहे होंगे, "ठीक है, क्या यह मान लेना ठीक नहीं है कि मेरे द्वारा सह-संबंध के लिए उपलब्ध मामलों का सबसेट, कमोबेश उसी पैटर्न का पालन करता है जो मुझे पूर्ण डेटा प्राप्त होने पर मिलेगा?" और हाँ, यह सच है --- आपके डेटा के सबसेट पर एक सहसंबंध की गणना के साथ मौलिक रूप से कुछ भी गलत नहीं है (हालांकि आप सटीक और शक्ति खो देते हैं, निश्चित रूप से, छोटे नमूने के आकार के कारण), जब तक उपलब्ध डेटा एक यादृच्छिक होते हैं। यदि आपके पास कोई गुमशुदगी नहीं है तो सभी डेटा का नमूना।

जब लापताता पूरी तरह से यादृच्छिक होती है, तो उसे MCAR कहा जाता है (पूरी तरह से यादृच्छिक रूप से गायब)। उस स्थिति में, डेटा के सबसेट का विश्लेषण जो गायब नहीं है, आपके परिणामों को व्यवस्थित रूप से पूर्वाग्रहित नहीं करेगा, और ऊपर दिए गए उदाहरण में मैंने जिस तरह के पागल सहसंबंध पैटर्न को दिखाया है, उसे प्राप्त करने की संभावना (लेकिन असंभव नहीं) होगी।

जब आपकी गुमशुदगी किसी तरह से व्यवस्थित होती है (अक्सर संक्षिप्त रूप से MAR या NI, दो अलग-अलग प्रकार की व्यवस्थित लापताता को दर्शाती है) तो आपके पास बहुत अधिक गंभीर मुद्दे होते हैं, दोनों आपकी गणना में और संभावित रूप से आपकी गणना को सामान्य बनाने की क्षमता के संदर्भ में। ब्याज की आबादी के लिए परिणाम (क्योंकि आप जिस नमूने का विश्लेषण कर रहे हैं, वह आबादी से यादृच्छिक नमूना नहीं है, भले ही आपका पूरा डेटासेट हो)।

लापता डेटा और इससे निपटने के तरीके के बारे में जानने के लिए बहुत सारे महान संसाधन उपलब्ध हैं, लेकिन मेरी सिफारिश रुबिन है: एक क्लासिक , और एक हालिया लेख


2
सीसी

1
@ शुभंकर धन्यवाद, यह एक महत्वपूर्ण बिंदु है। मैंने उस स्पष्टीकरण को शामिल करने के लिए उत्तर के उस भाग को अपडेट कर दिया है।
रोज हार्टमैन

7

एक बड़ी चिंता यह है कि क्या डेटा कुछ व्यवस्थित तरीके से गायब है जो आपके विश्लेषण को दूषित करेगा। आपका डेटा रैंडम नहीं हो सकता है।

यह पिछले उत्तरों में लाया गया था, लेकिन मुझे लगा कि मैं एक उदाहरण का योगदान दूंगा।

वित्त उदाहरण: लापता रिटर्न खराब रिटर्न हो सकता है

  • म्यूचुअल फंडों के विपरीत, निजी इक्विटी फंड (और अन्य निजी फंड) को कुछ केंद्रीय डेटाबेस में उनके रिटर्न की रिपोर्ट करने के लिए कानून की आवश्यकता नहीं होती है।
  • इसलिए एक बड़ी चिंता यह है कि रिपोर्टिंग अंतर्जात है, अधिक विशेष रूप से, कि कुछ फर्म खराब रिटर्न की रिपोर्ट नहीं करेंगे।
  • 1nΣमैंआरमैंआरमैं

इन स्थितियों में सभी आवश्यक रूप से नहीं खोए जाते हैं (ऐसी चीजें हैं जो आप कर सकते हैं), लेकिन गैर-लापता डेटा पर एक प्रतिगमन (या कंप्यूटिंग सहसंबंध) चलाने से आबादी में सच्चे मापदंडों के गंभीर पक्षपाती, असंगत अनुमान हो सकते हैं।


4

यदि आपका लापता डेटा रैंडम कम्प्लीट (MCAR) है तो पेयरवाइज सहसंबंध उपयुक्त है। पॉल एलीसन की मिसिंग डेटा पुस्तक क्यों शुरू करने के लिए एक अच्छी जगह है।

आप इसका परीक्षण लिटिल (1988) एमसीएआर टेस्ट का उपयोग करके कर सकते हैं, जो BaylorEdPsychपैकेज में है।


1
अभी भी चिंता का कारण है: MCAR डेटा के साथ, युग्मक सहसंबंध के माध्यम से अनुमानित सहसंबंध मैट्रिक्स सकारात्मक-निश्चित होने में विफल हो सकता है।
whuber

ज़रूर, लेकिन सवाल सहसंबंध के बारे में पूछता है, यह कुछ अन्य एल्गोरिथ्म के इनपुट के रूप में परिणामी सहसंबंध मैट्रिक्स के उपयोग का कोई उल्लेख नहीं करता है। और, नमूना आकार को देखते हुए, MCAR वैसे भी बहुत संभावना नहीं है।
टिम

1
यदि मैट्रिक्स सकारात्मक-निश्चित नहीं है, तो यह एक अवैध अनुमान है। कम से कम हमें उस असंगति के बारे में चिंतित होना होगा। मुझे डर है कि मैं यह नहीं देखता कि एमसीएआर (जो लापता होने का एक तंत्र है) की संभावना नमूना आकार से संबंधित कैसे हो सकती है।
whuber

प्रश्नकर्ता सहसंबंध मैट्रिक्स की एक पंक्ति में रुचि रखता है। क्या आपको एक प्रमाण मिला है कि यदि मैट्रिक्स सकारात्मक-निश्चित नहीं है तो सहसंबंध एक पंक्ति सभी अमान्य हैं? मुझे इसका एक प्रमाण देखना और कुछ ज्ञान प्राप्त करना अच्छा लगेगा। MCAR, सामान्य रूप से, वास्तविक दुनिया के आंकड़ों के साथ बहुत संभावना नहीं है। एक बड़े नमूने के आकार के साथ, लिटिल के परीक्षण की शक्ति बढ़ जाती है, इसलिए एमसीएआर की शून्य परिकल्पना की अस्वीकृति का एक अच्छा मौका है। मुझे यहाँ गलत मत समझो: मैं एक मल्टीवेरेट विधि में एक इनपुट के रूप में आंशिक-डेटा सहसंबंध मैट्रिक्स का उपयोग कभी नहीं करूंगा, लेकिन यह वह नहीं है जिसके बारे में सवाल पूछता है।
टिम

1
मुझे स्पष्ट करें: मैंने दावा नहीं किया कि सहसंबंध "सभी अमान्य हैं।" मैंने दावा किया कि सहसंबंध अनुमान (जो मैट्रिक्स है) का संग्रह अमान्य हो सकता है । यह निर्विवाद है (किसी प्रमाण की आवश्यकता नहीं है), क्योंकि सभी को जो करना है वह एक अवैध अनुमान का एक उदाहरण प्रदर्शित करता है, जो @RoseHartman पहले ही इस थ्रेड में कर चुका है। मैं आपके इस दावे पर विवाद नहीं करूंगा कि MCAR की संभावना नहीं है - बशर्ते यह एक व्यक्तिगत अर्थ में समझा जाए: आपके अनुभव में, जिस प्रकार के डेटा से आप परिचित हैं, MCAR दुर्लभ है। मैं यह नहीं देखता कि आप उस दावे की किसी भी व्यापक व्याख्या को कैसे उचित ठहरा सकते हैं।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.