GLM और GEE में क्या अंतर है?


9

एक GLM मॉडल (लॉजिस्टिक रिग्रेशन) के बीच अंतर को बाइनरी रिस्पॉन्स वैरिएबल के साथ अंतर किया जाता है, जिसमें कोवरिएट्स के रूप में विषय और समय शामिल होता है और एनालॉग जीईई मॉडल जो कई समय बिंदुओं पर माप के बीच संबंध को ध्यान में रखता है?

मेरा GLM ऐसा दिखता है:

Y(binary) ~ A + B1X1(subject id) + B2X2(time) 
              + B3X3(interesting continuous covariate)

लॉगिट लिंक फ़ंक्शन के साथ।

मैं एक सरल (सामाजिक वैज्ञानिक के उद्देश्य से) स्पष्टीकरण की तलाश कर रहा हूं कि कैसे और क्यों समय दो मॉडल में अलग-अलग व्यवहार किया जाता है और व्याख्या के लिए क्या निहितार्थ होंगे।


6
मैं संबंधित प्रश्नों के लिए उन प्रतिक्रियाओं पाया ( क्या सामान्यीकृत का आकलन समीकरण और GLMM के बीच का अंतर है? , बनाम मिश्रित प्रभाव मॉडल सामान्यीकृत का आकलन समीकरणों का उपयोग करते हैं के लिए? ) बहुत ही व्यापक है, हालांकि वे GLM के बारे में हैं यादृच्छिक प्रभाव के साथ बनाम GEE।
chl

1
क्या आप वास्तव में विषय आईडी को एक निरंतर कोवरिएट के रूप में फिट करना चाहते हैं? प्रतिक्रियाशील चर का आईडी के बढ़ते या घटते हुए समारोह में होना अजीब लगता है।
अतिथि

जनसंख्या औसत प्रभाव बनाम विषय विशिष्ट प्रभाव।
विल

यहाँ एक लेख का लिंक दोनों के बीच के अंतरों पर चर्चा करता है। aje.oxfordjournals.org/content/147/7/694.full.pdf+html
विल

1
@Chl लिंक ऊपर दिए गए प्रश्नों के अलावा, यह प्रश्न इन विचारों पर भी चर्चा करता है: सामान्यीकृत रैखिक मॉडल और SPSS में सामान्यीकृत रैखिक मिश्रित मॉडल के बीच अंतर
गूँग - मोनिका

जवाबों:


12

वहाँ एक बेहतर और अधिक विस्तृत जवाब हो सकता है, लेकिन मैं आपको कुछ सरल, त्वरित विचार दे सकता हूं। ऐसा प्रतीत होता है कि आप एक सामान्यीकृत रैखिक मॉडल (उदाहरण के लिए, एक विशिष्ट लॉजिस्टिक प्रतिगमन) का उपयोग करने के लिए कई समय बिंदुओं पर कुछ विषयों से एकत्रित डेटा को फिट करने के बारे में बात कर रहे हैं। पहले ब्लश में, मुझे इस दृष्टिकोण के साथ दो चमकदार समस्याएं दिखाई देती हैं।

सबसे पहले, यह मॉडल मानता है कि आपके डेटा स्वतंत्र हैं कोवरिएट्स (यानी, प्रत्येक विषय के लिए एक डमी कोड के लिए जिम्मेदार होने के बाद, एक व्यक्तिगत अवरोधन अवधि के लिए, और एक रैखिक समय की प्रवृत्ति जो हर किसी के लिए समान है)। यह बेतहाशा सच होने की संभावना नहीं है। इसके बजाय, लगभग निश्चित रूप से निरंकुशताएं होंगी, उदाहरण के लिए, समय के करीब एक ही व्यक्ति के दो अवलोकन समय के अलावा, आगे भी समय के अलावा दो टिप्पणियों से अधिक समान होंगे । (हालांकि वे अच्छी तरह से स्वतंत्र हो सकते हैं यदि आप एक subject ID x timeबातचीत भी शामिल करते हैं - यानी, हर किसी के लिए एक अद्वितीय समय प्रवृत्ति - लेकिन यह अगली समस्या को बढ़ा देगा।)

दूसरा, आप प्रत्येक प्रतिभागी के लिए एक पैरामीटर का अनुमान लगाते हुए स्वतंत्रता की एक बड़ी संख्या को जला सकते हैं। आपके पास आज़ादी के अपेक्षाकृत कम अंश होने की संभावना है जिसके साथ आप अपने हितों के मापदंडों का सही अनुमान लगाने की कोशिश कर सकते हैं (बेशक, यह इस बात पर निर्भर करता है कि आपके पास प्रति व्यक्ति कितने माप हैं)।

विडंबना यह है कि पहली समस्या का अर्थ यह है कि आपका आत्मविश्वास अंतराल बहुत कम है, जबकि दूसरा अर्थ यह है कि आपके सीआई बहुत अधिक व्यापक होंगे, जैसे कि यदि आपने अपनी अधिकांश डिग्री को आजादी के लिए बर्बाद नहीं किया होता। हालाँकि, मैं इन दोनों को एक-दूसरे को संतुलित करने पर भरोसा नहीं करूंगा। इसके लायक क्या है, मेरा मानना ​​है कि आपके पैरामीटर का अनुमान निष्पक्ष रहेगा (हालाँकि मैं यहाँ गलत हो सकता हूँ)।

सामान्यीकृत अनुमान समीकरणों का उपयोग करना इस मामले में उचित है। जब आप GEE का उपयोग करके किसी मॉडल को फिट करते हैं, तो आप एक सहसंबंधीय संरचना (जैसे AR (1)) निर्दिष्ट करते हैं, और यह काफी उचित हो सकता है कि आपका डेटा आपके दोनों सहसंयोजक और आपके द्वारा निर्दिष्ट सहसंबंध मैट्रिक्स पर स्वतंत्र सशर्त है । इसके अलावा, जीईई का अनुमान है कि जनसंख्या का मतलब एसोसिएशन है, इसलिए आपको प्रत्येक प्रतिभागी के लिए स्वतंत्रता की डिग्री को जलाने की ज़रूरत नहीं है - संक्षेप में आप उनके लिए औसत हैं।

व्याख्या के लिए, जहां तक ​​मैं जानता हूं, यह दोनों मामलों में समान होगा: यह देखते हुए कि अन्य कारक स्थिर रहते हैं, X3 में एक-इकाई परिवर्तन 'सफलता' के लॉग ऑड्स में B3 परिवर्तन के साथ जुड़ा हुआ है ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.