सामान्यीकृत रैखिक मॉडल के आगमन ने हमें प्रतिगमन-प्रकार के मॉडल के निर्माण की अनुमति दी है जब प्रतिक्रिया चर का वितरण गैर-सामान्य है - उदाहरण के लिए, जब आपका DV द्विआधारी होता है। (यदि आप GLiMs के बारे में कुछ और जानना चाहते हैं, तो मैंने यहां एक व्यापक उत्तर लिखा है , जो उपयोगी हो सकता है, हालांकि संदर्भ अलग है।) हालांकि, एक GLIM, जैसे एक लॉजिस्टिक रिग्रेशन मॉडल, मानता है कि आपका डेटा स्वतंत्र है । उदाहरण के लिए, एक अध्ययन की कल्पना करें जो यह देखता है कि क्या बच्चे ने अस्थमा विकसित किया है। प्रत्येक बच्चा एक योगदान देता हैअध्ययन के लिए डेटा बिंदु - वे या तो अस्थमा है या वे नहीं है। कभी-कभी डेटा स्वतंत्र नहीं होते हैं, हालांकि। एक अन्य अध्ययन पर विचार करें जो यह देखता है कि क्या एक बच्चे को स्कूल के वर्ष के दौरान विभिन्न बिंदुओं पर सर्दी है। इस मामले में, प्रत्येक बच्चा कई डेटा बिंदुओं में योगदान देता है । एक समय में एक बच्चे को सर्दी लग सकती है, बाद में वे नहीं हो सकते हैं, और फिर भी बाद में उन्हें एक और सर्दी हो सकती है। ये डेटा स्वतंत्र नहीं हैं क्योंकि वे एक ही बच्चे से आए थे। इन आंकड़ों का उचित विश्लेषण करने के लिए, हमें किसी तरह इस गैर-स्वतंत्रता को ध्यान में रखना होगा। दो तरीके हैं: एक तरीका सामान्यीकृत आकलन समीकरणों का उपयोग करना है (जो आप उल्लेख नहीं करते हैं, इसलिए हम छोड़ देंगे)। दूसरा तरीका सामान्यीकृत रैखिक मिश्रित मॉडल का उपयोग करना है। GLiMM गैर-स्वतंत्रता के लिए यादृच्छिक प्रभाव (@MichaelChernick नोट्स के रूप में) जोड़कर हिसाब कर सकते हैं। इस प्रकार, उत्तर यह है कि आपका दूसरा विकल्प गैर-सामान्य दोहराया उपायों (या अन्यथा गैर-स्वतंत्र) डेटा के लिए है। (मैं @ मैक्रो की टिप्पणी के साथ रखने में, का उल्लेख करना चाहिए, कि जनरल ized रैखिक मिश्रित मॉडल विशेष मामले के रूप रैखिक मॉडल और, सामान्य रूप से वितरित डेटा के साथ इस्तेमाल किया जा सकता शामिल हैं इस प्रकार है। लेकिन सामान्य उपयोग में इस शब्द की ओर संकेत गैर सामान्य डेटा।)
अपडेट: (ओपी ने GEE के बारे में भी पूछा है, इसलिए मैं थोड़ा लिखूंगा कि तीनों एक-दूसरे से कैसे संबंधित हैं।)
यहाँ एक बुनियादी अवलोकन है:
- एक विशिष्ट GLiM (मैं प्रोटोटाइप मामले के रूप में लॉजिस्टिक प्रतिगमन का उपयोग करूँगा) आपको कोवरिएट्स के एक फ़ंक्शन के रूप में एक स्वतंत्र बाइनरी प्रतिक्रिया को मॉडल करने देता है
- GLMM आपको कोविरेट के एक फ़ंक्शन के रूप में प्रत्येक व्यक्ति क्लस्टर की विशेषताओं पर एक गैर-स्वतंत्र (या संकुल) बाइनरी प्रतिक्रिया सशर्त मॉडल देता है।
- जीईई आपको कोविरेट के एक समारोह के रूप में गैर-स्वतंत्र बाइनरी डेटा की आबादी का मतलब मॉडल की प्रतिक्रिया देता है
चूंकि आपके पास प्रति प्रतिभागी के कई परीक्षण हैं, इसलिए आपका डेटा स्वतंत्र नहीं है; जैसा कि आप सही ढंग से ध्यान दें, "[टी] एक प्रतिभागी के भीतर के धारावाहिक पूरे समूह की तुलना में अधिक समान होने की संभावना है"। इसलिए, आपको या तो GLMM या GEE का उपयोग करना चाहिए।
फिर, समस्या यह है कि कैसे चुनें कि क्या GLMM या GEE आपकी स्थिति के लिए अधिक उपयुक्त होगा। इस प्रश्न का उत्तर आपके शोध के विषय पर निर्भर करता है - विशेष रूप से, आपके द्वारा किए गए अनुमानों का लक्ष्य। जैसा कि मैंने ऊपर कहा है, एक GLMM के साथ, बेटास आपको एक विशेष प्रतिभागी पर आपके सहसंयोजक में एक इकाई परिवर्तन के प्रभाव के बारे में बता रहे हैं, उनकी व्यक्तिगत विशेषताओं को देखते हुए। दूसरी ओर, GEE के साथ, बेटास आपके प्रश्न में संपूर्ण जनसंख्या की प्रतिक्रियाओं के औसत पर आपके कोवरिएट में एक इकाई परिवर्तन के प्रभाव के बारे में बता रहे हैं। यह समझ में लाने के लिए एक कठिन अंतर है, खासकर क्योंकि रैखिक मॉडल के साथ ऐसा कोई भेद नहीं है (जिस स्थिति में दोनों एक ही बात हैं)।
logit(pi)=β0+β1X1+bi
logit(p)=ln(p1−p), & b∼N(0,σ2b)
p β0(β0+bi)biβ0β1pilogit
कल्पना करें कि यह भूखंड इस संभावना के लिए अंतर्निहित डेटा जनरेटिंग प्रक्रिया का प्रतिनिधित्व करता है कि छात्रों का एक छोटा वर्ग उस विषय पर दिए गए घंटों के निर्देशों के साथ किसी विषय पर एक परीक्षा पास करने में सक्षम होगा। प्रत्येक ग्रे कर्व्स छात्रों में से किसी एक के लिए अलग-अलग निर्देश के साथ परीक्षा उत्तीर्ण करने की संभावना का प्रतिनिधित्व करता है। बोल्ड कर्व पूरे क्लास में औसत है। इस मामले में,
छात्र की विशेषताओं पर सशर्त शिक्षण के एक अतिरिक्त घंटे का प्रभाव है
β1- प्रत्येक छात्र के लिए एक ही (यानी, एक यादृच्छिक ढलान नहीं है)। ध्यान दें, हालांकि, छात्रों की आधारभूत क्षमता उनके बीच भिन्न होती है - शायद IQ जैसी चीजों में अंतर के कारण (यानी, एक यादृच्छिक अवरोधन है)। हालांकि, कक्षा के लिए औसत संभावना छात्रों की तुलना में एक अलग प्रोफ़ाइल का अनुसरण करती है। यह आश्चर्यजनक रूप से प्रति-सहज परिणाम है:
एक अतिरिक्त घंटे का निर्देश परीक्षा पास करने वाले प्रत्येक छात्र की संभावना पर एक बड़ा प्रभाव डाल सकता है , लेकिन पास होने वाले छात्रों के संभावित कुल अनुपात पर अपेक्षाकृत कम प्रभाव पड़ता है । ऐसा इसलिए है क्योंकि कुछ छात्रों के पास पहले से ही पास होने का एक बड़ा मौका हो सकता है जबकि अन्य के पास अभी भी बहुत कम मौका हो सकता है।
यह सवाल कि क्या आपको GLMM या GEE का उपयोग करना चाहिए, यह सवाल है कि आप इनमें से किस कार्य का अनुमान लगाना चाहते हैं। यदि आप किसी दिए गए छात्र के उत्तीर्ण होने की संभावना के बारे में जानना चाहते हैं (यदि, कहते हैं, तो आप छात्र थे , या छात्र के माता-पिता), तो आप GLMM का उपयोग करना चाहते हैं। दूसरी ओर, यदि आप जनसंख्या पर प्रभाव के बारे में जानना चाहते हैं (यदि, उदाहरण के लिए, आप शिक्षक या प्रिंसिपल थे), तो आप जीईई का उपयोग करना चाहेंगे।
दूसरे के लिए, गणितीय रूप से विस्तृत, इस सामग्री की चर्चा, @Macro द्वारा इस उत्तर को देखें।