परिणाम चर के लिए कई प्रतिनियुक्ति


19

मुझे कृषि परीक्षणों पर एक डेटासेट मिला है। मेरा प्रतिक्रिया चर एक प्रतिक्रिया अनुपात है: लॉग (उपचार / नियंत्रण)। मुझे इस बात में दिलचस्पी है कि अंतर में क्या अंतर है, इसलिए मैं आरई मेटा-रिग्रेशन (अनवीटेड चला रहा हूं, क्योंकि यह स्पष्ट है कि प्रभाव का आकार अनुमानों के विचलन के साथ असंबंधित है)।

प्रत्येक अध्ययन में अनाज की उपज, बायोमास की उपज, या दोनों की रिपोर्ट की जाती है। मैं अध्ययन से अनाज की उपज को अधिरोपित नहीं कर सकता, जो बायोमास की उपज की अकेले रिपोर्ट करता है, क्योंकि अध्ययन किए गए सभी पौधे अनाज के लिए उपयोगी नहीं थे (गन्ना शामिल है, उदाहरण के लिए)। लेकिन अनाज पैदा करने वाले प्रत्येक पौधे में बायोमास भी था।

लापता सहकर्मियों के लिए, मैं पुनरावृत्ति प्रतिगमन प्रतिरूपण (एंड्रयू जेलमैन की पाठ्यपुस्तक अध्याय के बाद) का उपयोग कर रहा हूं। यह उचित परिणाम देता है, और पूरी प्रक्रिया आम तौर पर सहज है। मूल रूप से मैं लापता मूल्यों की भविष्यवाणी करता हूं, और उन मूल्यवान मूल्यों की भविष्यवाणी करने के लिए उन अनुमानित मूल्यों का उपयोग करता हूं, और प्रत्येक चर के माध्यम से लूप करता हूं जब तक कि प्रत्येक चर लगभग वितरण (वितरण में) नहीं हो जाता।

क्या कोई कारण है कि मैं लापता परिणाम डेटा को लागू करने के लिए एक ही प्रक्रिया का उपयोग नहीं कर सकता हूं? मैं संभवतः बायोमास प्रतिक्रिया अनुपात दिए गए अनाज प्रतिक्रिया अनुपात, फसल प्रकार, और मेरे पास अन्य covariates के लिए एक अपेक्षाकृत जानकारीपूर्ण प्रतिरूपण मॉडल बना सकता हूं। मैं तब गुणांक और VCV का औसत निकालूंगा, और मानक अभ्यास के अनुसार MI करेक्शन जोड़ूंगा।

लेकिन जब ये परिणाम खुद ही थोपे जाते हैं तो ये गुणांक क्या मापते हैं? क्या गुणांक की व्याख्या covariates के लिए मानक एमआई से अलग है? इसके बारे में सोचकर, मैं खुद को समझा नहीं सकता कि यह काम नहीं करता है, लेकिन मुझे यकीन नहीं है। सामग्री पढ़ने के लिए विचार और सुझाव का स्वागत है।


मुझे जवाब नहीं मिला है, लेकिन एक प्रश्न और दो नोट: 1) अनुपात का लॉग, निश्चित रूप से, लॉग का अंतर है। तो आपका DV लॉग (उपचार) - लॉग (नियंत्रण) के बराबर है। 2) गेलमैन की कौन सी पाठ्यपुस्तक देख रहे थे?
पीटर फ्लॉम - मोनिका

हां, DV लॉग (उपचार) -लॉग (नियंत्रण) के बराबर है। मैं लापता डेटा पर (गैर-तकनीकी) अध्याय पर पुनरावृत्ति प्रतिगमन प्रतिरूपण को आधार बना रहा हूं कि जेलमैन
जेनेरिक शिक्षक

मुझे बताया गया है कि परिणाम को लागू करने से मोंटे कार्लो त्रुटि होती है। बाद में एक लिंक खोजने की कोशिश करेंगे। यह मत भूलो कि आपको सहसंयोजकों के लिए प्रतिरूपण मॉडल में परिणाम को शामिल करना सुनिश्चित करने की आवश्यकता है।
DL Dahly

जवाबों:


20

जैसा कि आपको संदेह था, परिणाम माप के लिए कई प्रतिरूपण का उपयोग करना मान्य है। ऐसे मामले हैं जहां यह उपयोगी है, लेकिन यह जोखिम भरा भी हो सकता है। मैं उस स्थिति पर विचार करता हूं जहां सभी सहसंयोजक पूर्ण हैं, और परिणाम अपूर्ण है।

यदि प्रतिरूपण मॉडल सही है, तो हम प्रतिरूपित डेटा से पैरामीटर अनुमानों पर मान्य निष्कर्ष प्राप्त करेंगे। सिर्फ पूर्ण मामलों से प्राप्त निष्कर्ष वास्तव में गलत हो सकते हैं यदि लापता व्यक्ति भविष्यवक्ता पर एमएनएआर के बाद कंडीशनिंग के परिणाम से संबंधित है। तो प्रतिरूपण उपयोगी है यदि हम जानते हैं (या संदेह है) कि डेटा MNAR हैं।

मार्च के तहत, परिणाम को लागू करने के लिए आम तौर पर कोई लाभ नहीं होते हैं, और कम संख्या में प्रतिरूपण के लिए परिणाम सिमुलेशन त्रुटि के कारण कुछ हद तक अधिक परिवर्तनशील हो सकते हैं। इसका एक महत्वपूर्ण अपवाद है। यदि हमारे पास एक सहायक पूर्ण चर है जो मॉडल का हिस्सा नहीं है और जो परिणाम के साथ अत्यधिक सहसंबद्ध है, तो प्रतिरूपण पूर्ण मामले के विश्लेषण की तुलना में काफी अधिक कुशल हो सकता है, जिसके परिणामस्वरूप अधिक सटीक अनुमान और कम आत्मविश्वास अंतराल हो सकता है। एक सामान्य परिदृश्य जहां ऐसा होता है यदि हमारे पास सभी के लिए एक सस्ता परिणाम माप है, और एक सबसेट के लिए एक महंगा उपाय है।

कई डेटा सेट में, गुम डेटा भी स्वतंत्र चर में होते हैं। इन मामलों में, हमें परिणाम चर को लागू करने की आवश्यकता होती है क्योंकि इसके चर संस्करण को स्वतंत्र चर को लागू करने की आवश्यकता होती है।


धन्यवाद, यह मेरे अंतर्ज्ञान के अनुरूप है, लेकिन क्या आप शायद एक अच्छी तरह से प्रकाशित अध्ययन के लिए एक लिंक साझा कर सकते हैं जो आश्रित चर को लागू करता है? मुख्य कारणों में से एक है कि मैं परिणाम के उपायों को लागू करना चाहता हूं कि जीएएम में अर्ध-पैरामीट्रिक टेन्सर उत्पाद इंटरैक्शन शर्तों को सुविधाजनक बनाने के लिए नमूना आकार (लगभग 250 से लगभग 450 तक) बढ़ाना है, जिसमें बहुत अधिक डीएफ आवश्यकताएं हैं (इससे पहले कि वे प्राप्त करें दण्डित, कम करना edf)। मेरे मामले में MAR वाजिब है।
जेनेरिक_सर

1
एनोवा के लिए संतुलित डिजाइन प्राप्त करने के लिए इसका व्यापक रूप से अभ्यास किया गया है। आरजेए लिटिल का परिचय देखें, लापता एक्स के साथ प्रतिगमन, जेएएसए 1992। मुझे लगता है कि आप जानते हैं कि इस तरह से नमूना आकार बढ़ाने से आपको अधिक सटीक अनुमान लगाने में मदद नहीं मिलती है। सहायक चर के मामले के लिए, डीबी रुबिन में सुपर-दक्षता पर अनुभाग पढ़ें, 18+ वर्षों के बाद एकाधिक प्रतिष्ठा, JASA 1996।
स्टीफ वैन ब्यूरेन

1
"मार्च के तहत, परिणाम को लागू करने के लिए आम तौर पर कोई लाभ नहीं होता है" - मैंने पहले भी इसका उल्लेख देखा है, लेकिन मेरे पास इसके लिए कोई संदर्भ नहीं है - क्या आप कृपया एक प्रदान कर सकते हैं?
रॉबर्ट लांग

मुझे लगता है कि आप उसके लिए लिटिल 1992 tandfonline.com/doi/abs/10.1080/01621459.1992.10476282 उद्धृत कर सकते हैं , लेकिन कृपया अपवादों पर ध्यान दें।
स्टेफ वैन बुरेन

1
@StefvanBuuren - अधिकांश भाग के लिए उपयोगी उत्तर, लेकिन मेरी समझ यह है कि "यदि हम जानते हैं (या संदेह है कि डेटा MNAR हैं" तो प्रतिरूपण पूर्ण मामले विश्लेषण से अधिक हमारी समस्याओं को हल नहीं कर सकता है। यह "नो फ्री लंच" श्रेणी में आता है।
rolando2

2

इंप्यूटिंग परिणाम डेटा बहुत सामान्य है और यादृच्छिक त्रुटि के लिए लेखांकन करते समय सही निष्कर्ष की ओर जाता है।

ऐसा लगता है कि आप जो कर रहे हैं वह एक एकल संकेतन है, एक पूर्ण मामले के विश्लेषण के तहत एक सशर्त मतलब के साथ लापता मूल्यों को लागू करके। आप जो कर रहे हैं वह कई प्रतिरूपण है, जो निरंतर कोवरिअट्स के लिए, आपके द्वारा देखे गए यादृच्छिक त्रुटि के लिए खातों ने आपको इन लापता मूल्यों को पूर्वव्यापी रूप से मापा है। EM एल्गोरिथ्म संभव मनाया परिणामों की एक सीमा से अधिक के द्वारा एक समान तरीके से काम करता है।

एकल प्रतिरूपण मॉडल मापदंडों का सही अनुमान देता है जब कोई मतलब-भिन्नता संबंध नहीं होता है, लेकिन यह मानक त्रुटि अनुमान देता है जो शून्य की ओर पक्षपाती हैं, प्रकार I त्रुटि दरों को बढ़ाता है। इसका कारण यह है कि आप त्रुटि के बारे में "आशावादी" हो सकते हैं जो आपने देखा होगा कि आपने इन कारकों को मापा था।

मल्टीपल इंप्यूटेशन सशर्त माध्य इंप्यूटेशन के लिए पुनरावृत्तीय त्रुटि उत्पन्न करने वाली प्रक्रिया है, ताकि 7 या 8 सिम्युलेटेड इंप्लूटेशन के माध्यम से, आप मॉडल पैरामीटर और उनकी मानक त्रुटियों का सही अनुमान प्राप्त करने के लिए मॉडल और उनकी त्रुटियों को जोड़ सकें। यदि आपके पास संयुक्त रूप से खोए हुए तार और परिणाम गायब हैं, तो एसएएस, एसटीएटीए और आर में सॉफ़्टवेयर हैं, जिन्हें जंजीर समीकरणों के माध्यम से कई प्रतिरूपण कहा जाता है, जहां "पूर्ण" डेटासेट (प्रतिधारित मान वाले डेटासेट्स हैं जिन्हें निश्चित और गैर-यादृच्छिक माना जाता है, मॉडल प्रत्येक पूर्ण डेटासेट से अनुमानित पैरामीटर, और उनके पैरामीटर का अनुमान और मानक त्रुटियां एक सही गणितीय गठन (वान ब्यूरेन पेपर में विवरण) का उपयोग करके संयुक्त हैं।

एमआई में प्रक्रिया और आपके द्वारा वर्णित प्रक्रिया के बीच मामूली अंतर यह है कि आपने इस तथ्य के लिए जिम्मेदार नहीं है कि अनुमानित डेटा का उपयोग करके परिणाम के सशर्त वितरण का अनुमान लगाना इस बात पर निर्भर करेगा कि आप कुछ कारकों को किस क्रम में लागू करते हैं। आपको एमआई में परिणाम पर लापता कोवरिनेट कंडीशनिंग के सशर्त वितरण का अनुमान लगाना चाहिए , अन्यथा आपको पक्षपाती पैरामीटर अनुमान मिल जाएगा।


धन्यवाद। सबसे पहले, मैं आर में खरोंच से सब कुछ प्रोग्रामिंग कर रहा हूं, एमआईसीई या एमआई का उपयोग नहीं कर रहा हूं। दूसरा, मैं केवल सशर्त अपेक्षाओं का नहीं बल्कि (प्रतिरूपित) भविष्य कहनेवाला वितरण के आरेखों से प्रभावित कर रहा हूं। क्या आप दूसरे पैराग्राफ के बारे में बात कर रहे हैं? यदि नहीं, तो मैं स्पष्टीकरण की सराहना करूंगा। इसके अलावा, आप किस रोस्टन पेपर का जिक्र कर रहे हैं? अपने अंतिम बिंदु के लिए - क्या आप "आपको अपने आश्रित चर को प्रतिरूप मॉडल में रखना चाहिए" की तुलना में अधिक जटिल कुछ भी कह रहे हैं? यदि हां, तो मैं स्पष्टीकरण की बहुत सराहना करूंगा।
जेनेरिक_सुअर

अंत में - मैं एकल प्रतिरूपण नहीं कर रहा हूं। मैं डेटा में भरे हुए 30 मॉडल फिट कर रहा हूं और रुबिन से V_b = W + (1 + 1 / m) B सूत्र का उपयोग कर रहा हूं।
जेनेरिक_सियर

Royston पेपर हाइपरलिंक था। मैं वास्तव में वान ब्यूरेन को जोड़ने के लिए था जिसने आर में कार्यक्रम को लागू किया और कम्प्यूटेशनल विवरण शामिल किया: doc.utwente.nl/78938 MICE / MI एक प्रक्रिया है। यदि आप घर में रहने वाले कोड के आधार पर नापसंद कर रहे हैं, तो आपको विवरणों के बारे में बेहतर जानकारी चाहिए। सशर्त का अर्थ है = अनुमानित मान यदि मॉडल सही है (या लगभग ऐसा है, तो एक आवश्यक धारणा)। यह "परिणाम जोड़ें" की तुलना में अधिक जटिल है, यह है कि आप कई लापता पैटर्न (कम से कम 3, लापता कोवरिएट / परिणाम / संयुक्त रूप से लापता) पर अधिरोपित कर रहे हैं।
एडम 28

यदि आप अनुमानित रूप से 30 बार अनुमानित मूल्य लगा रहे हैं, तो आपको 30 बार समान परिणाम प्राप्त करने चाहिए। आप त्रुटि का अनुमान कैसे लगा रहे हैं?
एडमों

fit,imp
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.