अनुदैर्ध्य अध्ययन में, क्या मुझे उस परिणाम को लागू करना चाहिए, जो समय 2 पर मापा गया था, उन व्यक्तियों के लिए जो अनुवर्ती के लिए खो गए थे?


10

मेरे पास लोगों के नमूने में 2 गुना बिंदुओं पर दोहराए गए उपाय हैं। 1 समय में 18k लोग होते हैं, और 13k समय 2 (5000 फॉलो-अप के लिए हार गए)।

मैं समय 2 पर मापा गया एक परिणाम वाई को फिर से प्राप्त करना चाहता हूं (और परिणाम 1 के समय पर मापा नहीं जा सकता है) समय पर मापा गया पूर्वानुमान एक्स के सेट पर 1. सभी चर में कुछ लापता डेटा है। अधिकांश यह अपेक्षाकृत यादृच्छिक प्रतीत होता है, या गुमशुदा मनाया गया डेटा द्वारा अच्छी तरह वर्णित है। हालांकि, परिणाम वाई में लापता होने का बड़ा हिस्सा हार-टू-फॉलो अप के कारण है। मैं कई प्रतिरूपण (R :: चूहों) का उपयोग करूंगा, और X के लिए मानों को लागू करने के लिए पूर्ण डेटासेट का उपयोग करूंगा, लेकिन मैंने Y के प्रतिनियुक्ति के बारे में परस्पर विरोधी सलाह के 2 टुकड़े प्राप्त किए हैं:

1) 18k के पूर्ण नमूने में X और V (V = उपयोगी सहायक चर) से Y को प्रभावित करें।

2) अनुवर्ती में खोए गए अविभाज्य में वाई को न थोपें (और इस तरह उन्हें किसी भी बाद के प्रतिगमन मॉडलिंग से हटा दें)।

पूर्व समझ में आता है क्योंकि जानकारी जानकारी है, इसलिए इसका उपयोग क्यों नहीं किया जाता है; लेकिन उत्तरार्द्ध भी समझ में आता है, एक अधिक सहज तरीके से - यह सिर्फ वाई ~ एक्स + वी के आधार पर 5000 लोगों के लिए परिणाम को लागू करने के लिए गलत लगता है, फिर चारों ओर मुड़कर वाई ~ एक्स का अनुमान लगाते हैं।

कौन सा (अधिक) सही है?

यह पिछला प्रश्न उपयोगी है, लेकिन फॉलो-अप के नुकसान के कारण लापता होने को सीधे संबोधित नहीं करता है (हालांकि शायद इसका उत्तर भी यही है; मुझे नहीं पता)।

परिणाम चर के लिए कई प्रतिनियुक्ति


यह मेरे लिए विरोधाभासी लगता है - क्या आप समझा सकते हैं ?: "इसमें से अधिकांश अपेक्षाकृत यादृच्छिक प्रतीत होता है, या लापता डेटा द्वारा अच्छी तरह से वर्णित किया गया प्रतीत होता है।"
rolando2

1
मल्टीपल इंप्यूटेशन और अधिकांश अन्य इंप्यूटेशन प्रक्रियाओं के लिए आवश्यक है कि आपका डेटा रैंडम (मार्च) से गायब हो। अपने अध्ययन में आकर्षण के तंत्र को समझना आवश्यक है। मुझे संदेह होगा कि आपके अनुवर्ती अध्ययनों में, हालांकि, आपके लापता मूल्यों की संभावना MAR या MCAR नहीं है।
स्टैट्सस्टूडेंट

जवाबों:


2

मुझे लगता है कि यह इंस्ट्रूमेंटेशन का मामला है। आप एक लापता एक्स चाहते हैं, एक लापता वाई नहीं।

Y~X

लेकिन एक्स अक्सर लापता या बेमेल है।

X~Z and Z does not impact Y- except through X.

तब आप चला सकते हैं:

 X~Z
 Y~Predicted(X)

और मानक त्रुटियों के लिए कुछ समायोजन की आवश्यकता होती है।

यदि आप बहुत अधिक सैंपल अट्रैक्शन करते हैं, तो आप हेक्मैन 2 स्टेप प्रक्रिया को भी देख सकते हैं। http://en.wikipedia.org/wiki/Heckman_correction


2

मैं तर्क दूंगा कि न तो सबसे उचित है।

आमतौर पर प्रतिष्ठा उचित नहीं है जब डेटा MAR या MCAR नहीं हैं और डेटा शायद ही कभी इस तरह से होते हैं। अपने मानों को लागू करते समय, यह एक उचित धारणा हो सकती है, लेकिन निश्चित रूप से आपके डेटा के लिए नहीं ।एक्सY

आपके डेटा से सभी अनुपलब्ध डेटा को छोड़ने से आपके पैरामीटर पक्षपाती हो जाते हैं (यदि डेटा MCAR नहीं है, तो ऊपर देखें) और आपके अनुमानों की शुद्धता को काफी कम कर देता है। यह एक "पूर्ण-केस" विश्लेषण है और यह अनुपयुक्त है।

मैं उत्तरजीविता विश्लेषण विधियों की समीक्षा करने का सुझाव दूंगा। ये आपके डेटा का विश्लेषण करने के लिए डिज़ाइन किए गए तरीके हैं जो कि आपके कुछ परिणामों को सेंसर करने के कारण अप्राप्य हैं। ऐसे मॉडल हैं जो इसे ध्यान में रखेंगे यदि आप पहचान सकते हैं कि कौन से अवलोकन सेंसर किए गए हैं।Y

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.