यह निर्धारित करने के लिए सांख्यिकीय दृष्टिकोण कि क्या डेटा यादृच्छिक पर गायब है

21

मेरे पास फ़ीचर वैक्टर का एक बड़ा सेट है जिसका उपयोग मैं एक द्विआधारी वर्गीकरण समस्या पर हमला करने के लिए करूँगा (पायथन में सीखें का उपयोग करके)। इससे पहले कि मैं प्रतिरूपण के बारे में सोचना शुरू कर दूं, मुझे डेटा के शेष हिस्सों से यह निर्धारित करने की कोशिश करने में दिलचस्पी है कि यदि लापता डेटा 'यादृच्छिक रूप से गायब' है या यादृच्छिक पर गायब नहीं है।

इस प्रश्न के दृष्टिकोण का एक समझदार तरीका क्या है?

यह एक बेहतर सवाल है कि डेटा 'यादृच्छिक रूप से पूरी तरह से गायब है' या नहीं। ऐसा करने का एक समझदार तरीका क्या है?

missing-data randomness

— Lembik
स्रोत

यदि अनुपलब्ध संकेतक और किसी भी देखे गए चर के बीच कोई संबंध नहीं है, तो लापता डेटा तंत्र MCAR है।

— Randel

@ रैंडल यह परीक्षण करने के लिए अभ्यास में आवेदन करने के लिए एक अच्छा परीक्षण क्या है?

— लेम्बिक

सहसंबंध परीक्षण या प्रतिगमन से विशेष कुछ भी नहीं।

— रैंडेल

3

यह ऐसा कुछ नहीं है जिसे आप परखते हैं, यह कुछ ऐसा है जिसे आप मानते हैं ।

— टिम

3

बस स्पष्ट होने के लिए: पूरी तरह से यादृच्छिक पर लापता होने का मतलब है कि लापता होने की संभावना एक स्थिर है, यह कुछ भी नहीं पर निर्भर करता है। यादृच्छिक पर गुम होने का मतलब है कि लापताता कुछ मापा कारकों पर निर्भर करता है, जैसे कि उम्र या लिंग, ताकि आप लापता पैटर्न को भरने के लिए कुछ मॉडलों का उपयोग कर सकें। बेतरतीब तरीके से गुम न होना, गायब होना उन चीजों पर निर्भर करता है, जिन्हें आपने नहीं मापा था। प्रश्न में ओपी कहते हैं NMAR बनाम MAR लेकिन ओपी का मतलब है MAR बनाम MCAR।

— अदमो

8

मुझे वह जानकारी मिली जिसके बारे में मैं अपनी टिप्पणी में बता रहा था।

से वैन Buurens किताब , पेज 31, वे लिखते हैं

"MCAR बनाम MAR के परीक्षण के लिए कई परीक्षण प्रस्तावित किए गए हैं। इन परीक्षणों का व्यापक रूप से उपयोग नहीं किया जाता है, और उनका व्यावहारिक मूल्य स्पष्ट नहीं है। दो प्रक्रियाओं के मूल्यांकन के लिए एंडर्स (2010, पीपी। 17–21) देखें । यह परीक्षण करना संभव नहीं है। ऐसे परीक्षण के लिए आवश्यक जानकारी गायब होने के बाद से MAR बनाम MNAR गायब है। ”

— RayVelcoro
स्रोत

प्रश्न MAR बनाम MNAR के बारे में पूछता है, लेकिन आपका उत्तर MCAR बनाम MAR के बारे में है। MCAR MNAR के लिए पूरी तरह से अलग है।

— टिम

यदि आप यह निर्धारित कर सकते हैं कि डेटा MAR है तो उसे पर्याप्त होना चाहिए। जैसा कि ब्योर्न कहते हैं, यह बता पाना संभव नहीं है कि यह MAR / MNAR है, लेकिन यह उत्तर उनके प्रश्न के लिए एक अच्छा प्रॉक्सी है, जो मुझे विश्वास है। यदि आप एंडर्स टेस्ट करते और पाते कि यह MCAR है, तो आपको प्रतिरूपण की आवश्यकता नहीं होगी। यदि आप पाते हैं कि यह MAR है, तो आप अपने डेटा को देख सकते हैं, या यह देखने के लिए कड़ी मेहनत कर सकते हैं कि क्या यह मानने का कारण है कि यह MNAR हो सकता है।

— रेवल्कोरो

@RayVelcoro यह एक पहचान का मुद्दा है: NMAR डेटा MCAR को दिखाना संभव है। टिम सही है कि NMAR (या दीक्षांत) कुछ ऐसा नहीं है जिसके लिए हम परीक्षण करते हैं, यह कुछ ऐसा है जिसे हम मानते हैं। MCAR बनाम MAR के बारे में अपनी बात के लिए, अधिक (सबसे?) महत्वपूर्ण बात यह है: यदि डेटा MCAR हैं और आप MAR विधियों का उपयोग करते हैं, तो क्या वास्तव में डेटा पर कोई शुद्ध प्रभाव है? मुझे ऐसा नहीं लगता। मार्च विधियों के लिए प्रवेश, उपलब्धता और उपयोग में आसानी को देखते हुए, हो सकता है कि परीक्षण और परीक्षणों के बयानों के पीछा में संलग्न होने की तुलना में गैर-पैरामीट्रिक भार या प्रतिरूपण प्रक्रिया का उपयोग करना बेहतर हो।

— एडम 21

17

यह संभव नहीं है, जब तक आप लापता डेटा को पुनः प्राप्त करने में कामयाब नहीं होते। आप देखे गए डेटा से यह निर्धारित नहीं कर सकते हैं कि लापता डेटा यादृच्छिक (MAR) पर अनुपलब्ध है या नहीं यादृच्छिक (MNAR) पर। आप केवल यह बता सकते हैं कि डेटा स्पष्ट रूप से यादृच्छिक (MCAR) में पूरी तरह से गायब नहीं है। इससे परे केवल एमसीएआर या एमएआर की बहुलता के लिए अपील करें जैसा कि आप जो जानते हैं उसके आधार पर एमएनएआर के विपरीत (जैसे कि डेटा क्यों गायब है, इसके लिए कारण बताया गया है)। वैकल्पिक रूप से, आप यह तर्क देने में सक्षम हो सकते हैं कि यह बहुत अधिक मायने नहीं रखता है, क्योंकि लापता डेटा का अनुपात छोटा है और एमएनएआर के तहत बहुत ही चरम परिदृश्यों के लिए आपके परिणामों को पलटना होगा (देखें "टिपिंग पॉइंट एनालिसिस")।

— ब्योर्न
स्रोत

1

आपका बहुत बहुत धन्यवाद। यह बताने का एक अच्छा तरीका है कि क्या डेटा MCAR है?

— लिम्बिक

@ ब्योर्न, उपरोक्त को आवश्यक असममितता को प्रतिबिंबित करने के लिए पुन: प्रस्तुत करने की आवश्यकता हो सकती है जो हम डेटा से सीख सकते हैं। यद्यपि यह एक परिकल्पना को ग़लत साबित करना संभव है कि डेटा MCAR (अर्थात।, एक मॉडल का निर्माण करके जो गायब हो जाने वाले कुछ हिस्सों को गायब होने के लिए खाते में शोषण करता है), MCAR या ऐसी किसी भी परिकल्पना की पुष्टि करना संभव नहीं है ।

— डेविड सी। नोरिस

अच्छी बात। मैंने वह साफ कर दिया।

— ब्योर्न

4

यह एक वर्गीकरण के दृष्टिकोण से काफी उल्लेखनीय लगता है।

आप अन्य सभी विशेषताओं का उपयोग करके लापता बनाम गैर-लापता डेटा को वर्गीकृत करना चाहते हैं। यदि आप यादृच्छिक परिणामों की तुलना में काफी बेहतर हैं, तो आपका डेटा यादृच्छिक पर गायब नहीं है।

— Firebug
स्रोत

2

आप जानना चाहते हैं कि क्या सुविधा में किसी मूल्य का कोई सहसंबंध छूट रहा है या किसी अन्य सुविधाओं का मूल्य।

प्रत्येक सुविधाओं के लिए, एक नया फ़ीचर बनाएं जो यह दर्शाता है कि मान गायब है या नहीं (चलो उन्हें "is_missing" सुविधा कहते हैं)। अपने पसंदीदा सहसंबंध माप की गणना करें (मैं यहां आपसी जानकारी का उपयोग करके) is_missing सुविधाओं और शेष सुविधाओं का सुझाव देता हूं।

ध्यान दें कि यदि आपको दो विशेषताओं के बीच कोई सहसंबंध नहीं मिलता है, तो सुविधाओं के समूह के कारण सहसंबंध होना अभी भी संभव है (दस अन्य सुविधाओं के XOR के एक फ़ंक्शन के रूप में एक मान गायब है)।

आपके पास सुविधाओं का एक बड़ा समूह और बड़ी संख्या में मूल्य हैं, आपको यादृच्छिकता के कारण गलत सहसंबंध मिलेंगे। उस के साथ मुकाबला करने के नियमित तरीकों के अलावा (सत्यापन सेट, उच्च पर्याप्त सीमा) आप यह देख सकते हैं कि सहसंबंध सममित और सकर्मक हैं या नहीं। यदि वे हैं, तो संभावना है कि वे सच हैं और आपको उन्हें आगे की जांच करनी चाहिए।

— दल
स्रोत

1

मेरे द्वारा उपयोग की जाने वाली एक विधि एक छाया मैट्रिक्स है, जिसमें डेटासेट में संकेतक चर होते हैं जहां 1 दिया जाता है यदि कोई मान मौजूद है, और 0 अगर यह नहीं है। एक दूसरे के साथ इनका परस्पर संबंध और मूल डेटा यह निर्धारित करने में मदद कर सकता है कि चर एक साथ गायब हो रहे हैं (मार्च) या नहीं (MCAR)। Rएक उदाहरण के लिए उपयोग करना (रॉबर्ट कबाकॉफ़ द्वारा पुस्तक "आर इन एक्शन" से उधार लेना):

#Load dataset
data(sleep, package = "VIM")

x <- as.data.frame(abs(is.na(sleep)))

#Elements of x are 1 if a value in the sleep data is missing and 0 if non-missing.
head(sleep)
head(x)

#Extracting variables that have some missing values.
y <- x[which(sapply(x, sd) > 0)]
cor(y)

#We see that variables Dream and NonD tend to be missing together. To a lesser extent, this is also true with Sleep and NonD, as well as Sleep and Dream.

#Now, looking at the relationship between the presence of missing values in each variable and the observed values in other variables:
cor(sleep, y, use="pairwise.complete.obs")

#NonD is more likely to be missing as Exp, BodyWgt, and Gest increases, suggesting that the missingness for NonD is likely MAR rather than MCAR.

— फिल
स्रोत

1

में विम , आप भी spinoplots की जाँच कर सकते हैं। वे प्रत्येक में लापता होने के साथ दो चर का हिस्टोग्राम देते हैं। हम दो चर का प्लॉट कर सकते हैं, और देख सकते हैं कि कैसे एक में गायबता दूसरे के साथ बदलती है। उदाहरण के लिए, यदि हम जीवित रहने का समय और उपचार असाइनमेंट की साजिश करते हैं, अगर हम लापता होने का एक सही तिरछा वितरण देखते हैं, तो हम यह मान सकते हैं कि कम अस्तित्व का समय अधिक लापता होने से जुड़ा हुआ है ... अर्थात उपचार में लापता होना मार्च है क्योंकि यह इस पर निर्भर करता है चर अस्तित्व का समय मनाया।

— रेवलकोरो

1

प्रश्न MAR बनाम MNAR के बारे में पूछता है, लेकिन आपका उत्तर MCAR बनाम MAR के बारे में है। MCAR MNAR के लिए पूरी तरह से अलग है।

— टिम

@Tim के रूप में एडमो ने सवाल के नीचे एक टिप्पणी में कहा, ओपी का मतलब था मार बनाम एमसीएआर।

— फिल