मल्टी-साइट अध्ययन के लिए मिश्रित मॉडल बनाम पूलिंग मानक त्रुटियां - एक मिश्रित मॉडल इतना अधिक कुशल क्यों है?


16

मुझे एक डेटा सेट मिला है जिसमें कुछ मुट्ठी भर साइटों से "टूटी हुई छड़ी" मासिक मामला मायने रखता है। मैं दो अलग-अलग तकनीकों से एकल सारांश अनुमान लगाने की कोशिश कर रहा हूं:

तकनीक 1: 0/1 सूचक चर के साथ एक पॉइसन GLM के साथ "टूटी हुई छड़ी" को फिट करें, और समय में प्रवृत्तियों के लिए नियंत्रण करने के लिए एक समय और समय ^ 2 चर का उपयोग करें। कि 0/1 इंडिकेटर वैरिएबल का अनुमान और एसई क्षणों की तकनीक के एक बहुत ही सीधे और नीचे की विधि का उपयोग करके, या "बेइज़ियन" अनुमान प्राप्त करने के लिए आर में tlnise पैकेज का उपयोग करके पूल कर रहे हैं। यह पेंग और डोमिनिकी वायु प्रदूषण डेटा के साथ, लेकिन कम साइटों (~ एक दर्जन) के समान है।

तकनीक 2: समय के रुझानों के लिए साइट-विशिष्ट नियंत्रण के कुछ का त्याग करें और एक रैखिक मिश्रित मॉडल का उपयोग करें। विशेष रूप से:

lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)

मेरे प्रश्न में इन त्रुटियों से निकलने वाली मानक त्रुटियाँ शामिल हैं। तकनीक 1 की मानक त्रुटि, जो वास्तव में मासिक समय सेट के बजाय एक साप्ताहिक का उपयोग कर रही है और इस प्रकार अधिक सटीकता होनी चाहिए , विधि के दृष्टिकोण के लिए ~ 0.206 के मानक त्रुटि और tlnise के लिए ~ 0.306 पर मानक त्रुटि है।

लैमर विधि ~ 0.09 की मानक त्रुटि देती है। प्रभाव का अनुमान काफी करीब है, इसलिए ऐसा नहीं लगता है कि वे अलग-अलग सारांश अनुमानों पर शून्य कर रहे हैं क्योंकि मिश्रित मॉडल बहुत अधिक कुशल है।

क्या ऐसा कुछ करना उचित है? यदि हां, तो मिश्रित मॉडल इतने अधिक कुशल क्यों हैं? क्या यह सामान्य घटना है, या इस मॉडल का एक विशिष्ट परिणाम है?


इस सवाल का जवाब देना मुश्किल है, यह जानने के बिना कि आप अपनी तकनीक 1 में किस मॉडल में फिट हैं। आपने 3 संभावनाओं का उल्लेख किया है, लेकिन जहां तक ​​मैं बता सकता हूं, कभी भी एक पर बसा नहीं। फिर बाद में आप कहते हैं "तकनीक 1 की मानक त्रुटि [...] ~ 0.206 है।" वास्तव में यह किस मॉडल के लिए मानक त्रुटि है? क्या आप इस मॉडल को फिट करने के लिए उपयोग किए गए वाक्यविन्यास को पोस्ट करेंगे, जैसे आपने तकनीक 2 के लिए किया था? इससे भी बेहतर यह होगा कि हम एक प्रतिलिपि प्रस्तुत करने योग्य उदाहरण (जरूरी नहीं कि आपके मूल डेटासेट) प्रदान करें, जिसे हम खुद दोनों मॉडल के लिए फिट कर सकते हैं।
जेक वेस्टफॉल

@JakeWestfall आप सही कह रहे हैं, जब मैंने पहली बार यह लिखा था तो यह चेतना प्रश्न की एक धारा थी जैसा कि समस्या विकसित हुई। मैं कुछ संपादन करूंगा और देखूंगा कि क्या यह अधिक सहायक हो सकता है। दुर्भाग्य से, कोड कहीं दूर भटक गया है ...
21

थोड़ा साफ किया - मॉडल के डिजाइन एक ही चर का उपयोग करता है। दुर्भाग्य से, कोड, डेटा, आदि किसी अन्य मशीन पर हैं और मैं एक सम्मेलन में हूं। मूल प्रश्न को उबाला जा सकता है, मुझे लगता है, "एकाधिक-साइट अनुमान: क्या मिश्रित मॉडल हमेशा / अक्सर पूलिंग की तुलना में अधिक कुशल होते हैं?"
फोमाइट

जवाबों:


5

मुझे पता है कि यह एक पुराना प्रश्न है, लेकिन यह अपेक्षाकृत लोकप्रिय है और इसका एक सरल उत्तर है, इसलिए उम्मीद है कि यह भविष्य में दूसरों के लिए उपयोगी होगा। अधिक गहराई तक ले जाने के लिए, रैखिक मिश्रित मॉडल पर क्रिस्टोफ़ लिपर्ट के पाठ्यक्रम पर एक नज़र डालें, जो यहां जीनोम-वाइड एसोसिएशन अध्ययन के संदर्भ में उनकी जांच करता है । विशेष रूप से व्याख्यान 5 देखें ।

कारण यह है कि मिश्रित मॉडल इतना बेहतर काम करता है कि यह उस पर ध्यान देने के लिए डिज़ाइन किया गया है कि आप किसके लिए नियंत्रण करने की कोशिश कर रहे हैं: जनसंख्या संरचना। आपके अध्ययन में "आबादी" विभिन्न साइटों का उपयोग कर रहे हैं, उदाहरण के लिए, एक ही प्रोटोकॉल के थोड़ा अलग लेकिन लगातार कार्यान्वयन। इसके अलावा, यदि आपके अध्ययन के विषय लोग हैं, तो अलग-अलग साइटों से जुड़े लोगों के एक ही साइट के लोगों की तुलना में कम होने की संभावना है, इसलिए रक्त-संबंधी भी भूमिका निभा सकते हैं।

एन(Y|एक्सβ,σ2)एन(Y|एक्सβ+जेडयू,σ2मैं+σजी2)

क्योंकि आप स्पष्ट रूप से जनसंख्या संरचना के लिए नियंत्रण करने की कोशिश कर रहे हैं, इसलिए यह कोई आश्चर्य की बात नहीं है कि रैखिक मिश्रित मॉडल ने अन्य प्रतिगमन तकनीकों को बेहतर बना दिया।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.