एक से अधिक प्रतिरूपण के बाद मैं पूल के बाद के साधनों और विश्वसनीय अंतरालों को कैसे कर सकता हूं?


20

मैंने कई भरे हुए डेटासेट प्राप्त करने के लिए कई प्रतिरूपण का उपयोग किया है।

मैंने प्रत्येक पूर्ण डेटासेट पर बायेसियन विधियों का उपयोग एक पैरामीटर (एक यादृच्छिक प्रभाव) के लिए पीछे के वितरण को प्राप्त करने के लिए किया है।

मैं इस पैरामीटर के लिए परिणामों को कैसे संयोजित / पूल कर सकता हूं?


अधिक संदर्भ:

मेरा मॉडल स्कूलों में अलग-अलग विद्यार्थियों (प्रति छात्र एक अवलोकन) के अर्थ में पदानुक्रमित है। मैंने MICEअपने डेटा पर कई इंप्रूवमेंट ( R का उपयोग करते हुए) किया है जहाँ मैंने schoolलापता डेटा के लिए एक पूर्वानुमानकर्ता के रूप में शामिल किया है - डेटा पदानुक्रम को इंप्यूटेशन में शामिल करने का प्रयास करने के लिए।

मैंने प्रत्येक पूर्ण डेटासेट ( MCMCglmmR का उपयोग करके ) में एक सरल यादृच्छिक ढलान मॉडल फिट किया है । परिणाम द्विआधारी है।

मैंने पाया है कि यादृच्छिक ढलान विचलन के पीछे के घनत्व इस अर्थ में "अच्छी तरह से व्यवहार किए जाते हैं" कि वे इस तरह दिखते हैं: यहां छवि विवरण दर्ज करें

मैं इस यादृच्छिक प्रभाव के लिए प्रत्येक प्रतिगामी डेटासेट से पीछे के साधन और विश्वसनीय अंतराल को कैसे जोड़ / पूल कर सकता हूं?


अपडेट 1 :

मैं अब तक जो भी समझ रहा हूं, उससे मैं रूबिन के नियमों को पीछे के माध्यम से लागू कर सकता हूं, एक बहुतायत से पोस्ट किए गए अर्थ को देने के लिए - क्या ऐसा करने में कोई समस्या है? लेकिन मुझे पता नहीं है कि मैं 95% विश्वसनीय अंतराल कैसे जोड़ सकता हूं। इसके अलावा, चूंकि मेरे पास प्रत्येक प्रतिरूपण के लिए एक वास्तविक पश्च घनत्व घनत्व है - क्या मैं किसी भी तरह इनको जोड़ सकता हूं?


अपडेट 2 :

टिप्पणियों में @ सियान के सुझाव के अनुसार, मैं बहुत से प्रतिरूपण से प्रत्येक पूर्ण डेटासेट से प्राप्त वितरण से बस नमूनों के संयोजन के विचार को बहुत पसंद करता हूं। हालाँकि, मुझे ऐसा करने के लिए सैद्धांतिक औचित्य जानना चाहिए।


यदि किसी भी दिए गए डेटम की गुमशुदगी संबंधित परिणाम मूल्य से स्वतंत्र है, तो यह अलग-अलग लगाए गए डेटा सेटों से सभी पोस्टीरियर नमूनों को एक साथ फेंकने के लिए सही है और माध्य और संयुक्त पोस्टर्वर नमूनों के 95% विश्वसनीय अंतराल को लें।
सियान

@ कियान वही है जो यह कहता है कि लापता तंत्र या तो "बेतरतीब ढंग से गायब" है या "पूरी तरह से बेतरतीब ढंग से गायब है" लेकिन "बेतरतीब ढंग से गायब नहीं" (सामान्य प्रदर्शन जो मैंने एमआई के प्रदर्शन के बारे में सीखा है)? क्या आप किसी भी संदर्भ को जानते हैं जहां यह "एक साथ फेंकना" औपचारिक रूप से उचित है?
जो किंग

एक से अधिक प्रतिरूपण उसके दिल में एक बायेसियन प्रक्रिया है। यदि आप अनुमान (MCMC और इस तरह) के लिए बायेसियन विधियों का उपयोग करते हैं, तो आपको बस एक पूरी तरह से बायेसियन मॉडल के लिए अतिरिक्त MCMC नमूनाकरण कदम के रूप में लापता डेटा के अनुकरण को फेंक देना चाहिए, और इन तरीकों के बीच एक इंटरफेस के साथ आने की कोशिश में परेशान नहीं करेंगे।
StasK

@StasK आपकी टिप्पणी के लिए धन्यवाद। मैं अपने अगले प्रोजेक्ट पर उस दृष्टिकोण का उपयोग करने की कोशिश करूंगा लेकिन दुर्भाग्य से मेरे पास अब मॉडल बदलने का समय नहीं है। मैंने पहले से ही प्रत्येक प्रतिमानित डेटासेट पर प्रतिरूपण और बायेसियन मॉडल चलाया - इसे चलाने में लगभग 3 सप्ताह लग गए। क्या आपको लगता है कि पोस्टीरियर नमूनों को संयोजित करना मेरे लिए अमान्य है?
जो किंग

रुबिन के नियम केवल क्षणों पर लागू होते हैं। मुझे नहीं पता कि आप उन्हें सार्थक तरीके से वितरण के लिए लागू कर सकते हैं। शायद शायद नहीं। यह अच्छी तरह से हो सकता है कि आप जो सबसे अच्छा कर सकते हैं वह यह है कि MCMC चलाने से बिंदु अनुमान (पीछे के साधन) और मानक त्रुटियां (पश्च संस्करण) का उत्पादन होता है, और फिर रुबिन के नियमों का उपयोग करके समग्र बिंदु और भिन्नता अनुमान प्राप्त करते हैं। आप जानते हैं कि पदानुक्रमित मॉडल में dfs का नुकसान कितना दुखद हो सकता है, और यह डेटा को पूल करने के लिए कितना खतरनाक है: यदि आपके पास 5 पूर्ण डेटा सेट और प्रत्येक पर 1M MCMC नमूने हैं, तो इसका मतलब है कि आपके पास 5 क्लस्टर हैं, 5M iid MCMC नहीं अंक।
StasK

जवाबों:


4

विशेष रूप से अच्छी तरह से व्यवहार किए गए पोस्टरियर्स के साथ जो कि वितरण के पैरामीट्रिक विवरण द्वारा पर्याप्त रूप से वर्णित किया जा सकता है, आप बस माध्य और विचरण लेने में सक्षम हो सकते हैं जो आपके पोस्टीरियर का सबसे अच्छा वर्णन करता है और वहां से जाता है। मुझे संदेह है कि यह कई परिस्थितियों में पर्याप्त हो सकता है जहां आपको वास्तविक रूप से विषम वितरण नहीं मिल रहा है।


0

यदि आप स्टैटा का उपयोग करते हैं तो "मिम" नामक एक प्रक्रिया है जो मिश्रित प्रभाव वाले मॉडलों के लिए उपयोग करने के बाद डेटा को जमा करती है। मुझे नहीं पता कि यह आर में उपलब्ध है।


धन्यवाद। मैंने अच्छी तरह से समझाया नहीं हो सकता है - मेरे पास पहले से ही कई नमूनों वाले डेटासेट से पीछे के नमूने हैं, और मैं जानना चाहता हूं कि क्या मैं बस इनको जोड़ सकता हूं और फिर एक बहुप्रतिक्षित विश्वसनीय अंतराल बना सकता हूं?
जो किंग
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.