जोड़ीदार संपूर्ण टिप्पणियों पर सहसंबंध के साथ मुद्दा
आपके द्वारा वर्णित मामले में, मुख्य मुद्दा व्याख्या है। क्योंकि आप युग्मक पूर्ण टिप्पणियों का उपयोग कर रहे हैं, आप वास्तव में प्रत्येक सहसंबंध के लिए थोड़ा अलग डेटासेट का विश्लेषण कर रहे हैं, जिसके आधार पर अवलोकन गायब हैं।
निम्नलिखित उदाहरण पर विचार करें:
a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA)
डेटासेट में तीन चर, a
, b
, और c
, प्रत्येक कुछ याद आ रही मान होते हैं। यदि आप यहां चर के जोड़े पर सहसंबंधों की गणना करते हैं, तो आप केवल उन मामलों का उपयोग करने में सक्षम होंगे, जिनमें दोनों चर के लापता मान नहीं हैं। इस मामले में, इसका मतलब है कि आप के बीच सहसंबंध के लिए सिर्फ पिछले 3 मामलों का विश्लेषण कर रहे हैं a
और b
, के बीच सहसंबंध के लिए सिर्फ पहले तीन मामलों b
और c
, आदि।
तथ्य यह है कि आप प्रत्येक सहसंबंध की गणना करते समय पूरी तरह से अलग-अलग मामलों का विश्लेषण कर रहे हैं इसका मतलब है कि सहसंबंधों के परिणामस्वरूप पैटर्न निरर्थक लग सकता है। देख:
> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289
एक तार्किक विरोधाभास की तरह यह दिखता है --- a
और b
दृढ़ता से सकारात्मक सहसंबद्ध होते हैं, और b
और c
भी दृढ़ता से सकारात्मक सहसंबद्ध होते हैं, तो आप उम्मीद करेंगे a
और c
सकारात्मक साथ ही जोड़ा जा सकता है, लेकिन वहाँ वास्तव में विपरीत दिशा में एक मजबूत सहयोग है। आप देख सकते हैं कि बहुत सारे विश्लेषकों को यह पसंद क्यों नहीं है।
व्हीबर से उपयोगी स्पष्टीकरण शामिल करने के लिए संपादित करें:
ध्यान दें कि तर्क का हिस्सा "मजबूत" सहसंबंध पर निर्भर करता है। इसके लिए काफी हद तक संभव है a
और b
साथ ही साथ b
और c
"दृढ़ता से सकारात्मक सहसंबद्ध" किया जाना है, जबकि वहाँ के बीच एक "विपरीत दिशा में मजबूत सहयोग" मौजूद है a
और c
इस उदाहरण में, लेकिन काफी नहीं के रूप में चरम। इस मामले की जड़ यह है कि अनुमानित सहसंबंध (या सहसंयोजक) मैट्रिक्स सकारात्मक-निश्चित नहीं हो सकता है: यह है कि किसी को "मजबूत" की मात्रा निर्धारित करनी चाहिए।
लापता होने के प्रकार के साथ मुद्दा
आप अपने आप से सोच रहे होंगे, "ठीक है, क्या यह मान लेना ठीक नहीं है कि मेरे द्वारा सह-संबंध के लिए उपलब्ध मामलों का सबसेट, कमोबेश उसी पैटर्न का पालन करता है जो मुझे पूर्ण डेटा प्राप्त होने पर मिलेगा?" और हाँ, यह सच है --- आपके डेटा के सबसेट पर एक सहसंबंध की गणना के साथ मौलिक रूप से कुछ भी गलत नहीं है (हालांकि आप सटीक और शक्ति खो देते हैं, निश्चित रूप से, छोटे नमूने के आकार के कारण), जब तक उपलब्ध डेटा एक यादृच्छिक होते हैं। यदि आपके पास कोई गुमशुदगी नहीं है तो सभी डेटा का नमूना।
जब लापताता पूरी तरह से यादृच्छिक होती है, तो उसे MCAR कहा जाता है (पूरी तरह से यादृच्छिक रूप से गायब)। उस स्थिति में, डेटा के सबसेट का विश्लेषण जो गायब नहीं है, आपके परिणामों को व्यवस्थित रूप से पूर्वाग्रहित नहीं करेगा, और ऊपर दिए गए उदाहरण में मैंने जिस तरह के पागल सहसंबंध पैटर्न को दिखाया है, उसे प्राप्त करने की संभावना (लेकिन असंभव नहीं) होगी।
जब आपकी गुमशुदगी किसी तरह से व्यवस्थित होती है (अक्सर संक्षिप्त रूप से MAR या NI, दो अलग-अलग प्रकार की व्यवस्थित लापताता को दर्शाती है) तो आपके पास बहुत अधिक गंभीर मुद्दे होते हैं, दोनों आपकी गणना में और संभावित रूप से आपकी गणना को सामान्य बनाने की क्षमता के संदर्भ में। ब्याज की आबादी के लिए परिणाम (क्योंकि आप जिस नमूने का विश्लेषण कर रहे हैं, वह आबादी से यादृच्छिक नमूना नहीं है, भले ही आपका पूरा डेटासेट हो)।
लापता डेटा और इससे निपटने के तरीके के बारे में जानने के लिए बहुत सारे महान संसाधन उपलब्ध हैं, लेकिन मेरी सिफारिश रुबिन है:
एक क्लासिक ,
और एक हालिया लेख