कई प्रतिरूपण का उपयोग करते समय मिश्रित-प्रभाव मॉडल के एक विचरण घटक के लिए आत्मविश्वास अंतराल कैसे संयोजित करें


20

मल्टीपल इंप्यूटेशन (एमआई) का तर्क एक बार नहीं बल्कि कई (आमतौर पर एम = 5) बार गुम मूल्यों को लागू करना है, जिसके परिणामस्वरूप एम पूरा डेटासेट होता है। एम पूरा किए गए डेटासेट का विश्लेषण तब पूर्ण-डेटा विधियों के साथ किया जाता है, जिस पर एम अनुमान और उनकी मानक त्रुटियों को "समग्र" अनुमान और इसकी मानक त्रुटि प्राप्त करने के लिए रुबिन के फ़ार्मुलों का उपयोग करके जोड़ा जाता है।

अब तक बहुत अच्छा है, लेकिन मुझे यकीन नहीं है कि इस नुस्खा को कैसे लागू किया जाए जब मिश्रित-प्रभाव मॉडल के विचरण घटक चिंतित हों। एक विचरण घटक का नमूना वितरण विषम है - इसलिए संबंधित आत्मविश्वास अंतराल विशिष्ट "अनुमान (1.96 * से (अनुमान)" रूप में नहीं दिया जा सकता है। इस कारण से आर पैकेज lme4 और nlme भी विचरण घटकों की मानक त्रुटियों को प्रदान नहीं करते हैं, लेकिन केवल विश्वास अंतराल प्रदान करते हैं।

इसलिए हम एक डेटासेट पर एमआई का प्रदर्शन कर सकते हैं और फिर एम प्रोटोकॉल प्रोटोकॉल पर एक ही मिश्रित-प्रभाव मॉडल को फिट करने के बाद एम वेरिएशन घटक के प्रति एम आत्मविश्वास अंतराल प्राप्त कर सकते हैं। सवाल यह है कि इन एम अंतरालों को एक "समग्र" आत्मविश्वास अंतराल में कैसे जोड़ा जाए।

मुझे लगता है कि यह संभव होना चाहिए - एक लेख के लेखक (yucel & demirtas (2010) एमआई द्वारा अनुमान पर गैर-सामान्य यादृच्छिक प्रभावों का प्रभाव) ऐसा लगता है, लेकिन वे वास्तव में यह नहीं बताते हैं कि कैसे।

किसी भी सुझाव बहुत बाध्य होगा!

चीयर्स, रोक


एक बहुत ही दिलचस्प सवाल। मैं आपके परिणामों को सुनने के लिए उत्सुक हूं, यदि आप उन्हें साझा करना चाहते हैं ...
chl

@chl: जब मैं पूरा कर लूंगा, आपको परिणामों के साथ तालिकाओं को भेज सकता हूं, लेकिन मैं वास्तव में कुछ भी नया आविष्कार नहीं करूंगा। अब तक मैं सिर्फ एक सामान्य सामान्य मॉडल (दो-स्तरीय संरचना, आर पैकेज मानदंड की अनदेखी) और सूचीवार विलोपन के तहत एमआई की तुलना दो-स्तरीय प्रतिरूपण मॉडल (आर पैकेज पैन) के तहत एमआई से करने की योजना बना रहा हूं। विभिन्न नमूना आकारों के तहत, विचरण घटक के मूल्य आदि। यह संगोष्ठी (मैं पीएचडी छात्र हूं) के लिए पर्याप्त होना चाहिए, लेकिन बिल्कुल आधार नहीं। यदि आपके पास सिमुलेशन अध्ययन "जैज़ अप" करने के बारे में कोई विचार है, तो मुझे सुनना अच्छा लगेगा।
रोक

1
एक और बात: मुझे यकीन नहीं है कि इस समस्या का एक उचित विश्लेषणात्मक समाधान भी मौजूद है। मैंने कुछ अतिरिक्त साहित्य पर ध्यान दिया है, लेकिन हर जगह इस समस्या को बड़े पैमाने पर देखा गया है। मैंने यह भी देखा है कि yucel & demirtas (लेख में मैंने उल्लेख किया है, पृष्ठ 798) लिखते हैं: "मॉडल का अनुमान लगाने के लिए इन गुणा किए गए डेटासेट का उपयोग किया गया था [...] R पैकेज lme4 का उपयोग करके (बीटा, se (बीटा) के 10 सेटों की ओर जाता है) ), (sigma_b, se (sigma_b)) जिन्हें तब रुबिन द्वारा MI संयोजन नियमों का उपयोग करके संयोजित किया गया था। ”
Rok

ऐसा लगता है कि उन्होंने कुछ भिन्न प्रकार के शॉर्टकट का उपयोग किया है, जो कि एसआई संस्करण के घटक का अनुमान लगाने के लिए है (जो निश्चित रूप से अनुचित है, क्योंकि सीआई विषम है) और फिर क्लासिक फॉर्मूला लागू किया।
रोक

ठीक है, उसके लिए thx। क्या आप अपनी टिप्पणियों को एक उत्तर में डाल सकते हैं ताकि उसे वोट दिया जा सके?
chl

जवाबों:


8

यह एक बड़ा सवाल है! यह सुनिश्चित नहीं है कि यह एक पूर्ण उत्तर है, हालांकि, अगर यह मदद करता है तो मैं इन कुछ लाइनों को छोड़ देता हूं।

ऐसा लगता है कि युकेल और डेमिरेटस (2010) जेसीजीएस में प्रकाशित एक पुराने पेपर का संदर्भ देते हैं , लापता मूल्यों के साथ बहुभिन्नरूपी रैखिक मिश्रित-प्रभाव वाले मॉडल के लिए कम्प्यूटेशनल रणनीति , जो कुलपतियों के संभावना-आधारित अनुमानों के उत्पादन के लिए एक हाइब्रिड ईएम / फिशर स्कोरिंग दृष्टिकोण का उपयोग करता है। । यह आर पैकेज एमएलएमएम में लागू किया गया है । मुझे नहीं पता, हालाँकि, अगर यह CI का उत्पादन करता है।

अन्यथा, मैं निश्चित रूप से WinBUGS कार्यक्रम की जांच करूंगा , जो कि बहुस्तरीय मॉडल के लिए उपयोग किया जाता है, जिसमें लापता डेटा वाले भी शामिल हैं। मुझे याद है कि यह केवल तभी काम करेगा जब आपका एमवी प्रतिक्रिया चर में होगा, कोविरेट्स में नहीं क्योंकि हमें आम तौर पर पूर्ण सशर्त वितरण निर्दिष्ट करना होगा (यदि एमवी स्वतंत्र चर में मौजूद हैं, तो इसका मतलब है कि हमें पहले से देना होगा। लापता Xs, और यह WinBUGS द्वारा अनुमानित पैरामीटर के रूप में माना जाएगा ...)। यह R पर भी लागू होता है, अगर मैं r- sig- मिश्रित, lme, lmer, PROC MIXED में अनुपलब्ध डेटा पर निम्न थ्रेड को संदर्भित करता हूं । इसके अलावा, यह MLwiN सॉफ्टवेयर को देखने लायक हो सकता है ।


उत्तर के लिए आपका बहुत - बहुत धन्यवाद! सिद्धांत रूप में मैं भी एक ठोस समस्या को हल करने में दिलचस्पी रखता हूं जैसे कि मैंने जो वर्णित किया है (इस प्रकार WinBUGS टिप के लिए धन्यवाद)। लेकिन फिलहाल मैं एक सेमिनार पेपर के लिए एक सिमुलेशन अध्ययन करने की कोशिश कर रहा हूं जिसमें मैं मॉडल प्रक्षेपन के तहत एमआई के प्रदर्शन (कवरेज दरों आदि) की जांच करूंगा। मुझे लगता है कि मैं केवल विचरण घटकों के बारे में भूल जाऊंगा अगर मुझे कोई समाधान नहीं मिल रहा है और निश्चित प्रभावों पर ध्यान केंद्रित करना है, लेकिन इसे छोड़ना निराशाजनक है।
रोक

@Rok सिमुलेशन के लिए महान विचार! मैं इस विशेष मुद्दे के लिए तत्पर हूँ। मैं आप पहले से ही आर-sig मिश्रित मेलिंग और बहुस्तरीय प्रतिगमन पर Gelman की किताब पर खोज लगता है ...
CHL

मैंने अब देखा, संदर्भों के लिए टैंक! दुर्भाग्य से, आर-सिग-मिश्रित अभिलेखागार में एमआई पर कुछ भी नहीं है; और गेलमैन केवल एमआई से इनफेक्शन को संयोजित करने का मूल सूत्र देता है, जब हमारे पास दिए गए और (..7.7) के बीच अंतर होता है।
रोक

6

ऊपर से बार-बार टिप्पणी:

मुझे यकीन नहीं है कि इस समस्या का एक उचित विश्लेषणात्मक समाधान भी मौजूद है। मैंने कुछ अतिरिक्त साहित्य को देखा है, लेकिन हर जगह इस समस्या की अनदेखी की गई है। मैंने यह भी देखा है कि Yucel और Demirtas (लेख में मैंने उल्लेख किया है, पृष्ठ 798) लिखें:

ये गुणा किए गए डेटासेट्स मॉडल का अनुमान लगाने के लिए उपयोग किए गए थे […] आर पैकेज का उपयोग करके lme4(बीटा, से (बीटा)), (sigma_b, se (sigma_b)) के 10 सेटों का उपयोग कर रहे थे, जिन्हें तब एमआई संयोजन नियमों का उपयोग करके संयुक्त रूप से परिभाषित किया गया था। घिसना।

ऐसा लगता है कि उन्होंने कुछ भिन्न प्रकार के शॉर्टकट का उपयोग किया है, जो कि एसआई संस्करण के घटक का अनुमान लगाने के लिए है (जो निश्चित रूप से अनुचित है, क्योंकि सीआई विषम है) और फिर क्लासिक फॉर्मूला लागू किया।


मैं सराहना करता हूं कि आप इस समस्या के साथ अपने अनुभव को साझा करने के लिए वापस आए। दुर्भाग्य से, मेरे पास कोई वास्तविक समाधान नहीं है लेकिन शायद अन्य सुझाव सामने आएंगे।
chl

"सुरुचिपूर्ण ढंग से अनदेखी" ... यह साहित्य की समीक्षा के लिए एक उपयोगी वाक्यांश है अगर मैंने कभी सुना है।
मैट पार्कर

3

डिस्क्लेमर: यह विचार मूर्खतापूर्ण हो सकता है और मैं जो प्रस्ताव दे रहा हूं उसके सैद्धांतिक निहितार्थ को समझने का नाटक नहीं करूंगा।

" सुझाव " : आप केवल 100 क्यों नहीं थोपते हैं (मुझे पता है कि आप सामान्य रूप से 5 करते हैं) डेटासेट, lme4 या nmle चलाते हैं, विश्वास अंतराल प्राप्त करें (आपके पास उनमें से 100 हैं) और फिर:

एक छोटे अंतराल की चौड़ाई का उपयोग करें (रेंज / 1000 या कुछ कहें), प्रत्येक पैरामीटर के संभावित मानों की सीमा पर परीक्षण करें और केवल उन छोटे अंतरालों को शामिल करें जो 100 CI के कम से कम 95 में दिखाई देते हैं। तब आपके पास अपने आत्मविश्वास के अंतराल का एक मोंटे कार्लो होगा।

मुझे यकीन है कि इस दृष्टिकोण के साथ मुद्दे (या शायद सैद्धांतिक समस्याएं) हैं। उदाहरण के लिए, आप अंतर्जाल अंतराल के एक सेट के साथ समाप्त कर सकते हैं। यह आपके क्षेत्र के आधार पर एक बुरी बात हो सकती है या नहीं भी हो सकती है। ध्यान दें कि यह केवल तभी संभव है जब आपके पास कम से कम दो पूरी तरह से गैर-अतिव्यापी आत्मविश्वास अंतराल हों जो कि 95% से कम कवरेज वाले क्षेत्र द्वारा अलग किए गए हों।

आप एक पुराने विश्वसनीय क्षेत्र को प्राप्त करने के लिए लापता डेटा के बायेसियन उपचार के करीब कुछ पर विचार कर सकते हैं जो निश्चित रूप से मेरे विज्ञापन-सुझाव से बेहतर गठित और सैद्धांतिक रूप से समर्थन होगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.