मेरे पास लोगों के नमूने में 2 गुना बिंदुओं पर दोहराए गए उपाय हैं। 1 समय में 18k लोग होते हैं, और 13k समय 2 (5000 फॉलो-अप के लिए हार गए)।
मैं समय 2 पर मापा गया एक परिणाम वाई को फिर से प्राप्त करना चाहता हूं (और परिणाम 1 के समय पर मापा नहीं जा सकता है) समय पर मापा गया पूर्वानुमान एक्स के सेट पर 1. सभी चर में कुछ लापता डेटा है। अधिकांश यह अपेक्षाकृत यादृच्छिक प्रतीत होता है, या गुमशुदा मनाया गया डेटा द्वारा अच्छी तरह वर्णित है। हालांकि, परिणाम वाई में लापता होने का बड़ा हिस्सा हार-टू-फॉलो अप के कारण है। मैं कई प्रतिरूपण (R :: चूहों) का उपयोग करूंगा, और X के लिए मानों को लागू करने के लिए पूर्ण डेटासेट का उपयोग करूंगा, लेकिन मैंने Y के प्रतिनियुक्ति के बारे में परस्पर विरोधी सलाह के 2 टुकड़े प्राप्त किए हैं:
1) 18k के पूर्ण नमूने में X और V (V = उपयोगी सहायक चर) से Y को प्रभावित करें।
2) अनुवर्ती में खोए गए अविभाज्य में वाई को न थोपें (और इस तरह उन्हें किसी भी बाद के प्रतिगमन मॉडलिंग से हटा दें)।
पूर्व समझ में आता है क्योंकि जानकारी जानकारी है, इसलिए इसका उपयोग क्यों नहीं किया जाता है; लेकिन उत्तरार्द्ध भी समझ में आता है, एक अधिक सहज तरीके से - यह सिर्फ वाई ~ एक्स + वी के आधार पर 5000 लोगों के लिए परिणाम को लागू करने के लिए गलत लगता है, फिर चारों ओर मुड़कर वाई ~ एक्स का अनुमान लगाते हैं।
कौन सा (अधिक) सही है?
यह पिछला प्रश्न उपयोगी है, लेकिन फॉलो-अप के नुकसान के कारण लापता होने को सीधे संबोधित नहीं करता है (हालांकि शायद इसका उत्तर भी यही है; मुझे नहीं पता)।