सामान्यीकृत रैखिक मॉडल और सामान्यीकृत रैखिक मिश्रित मॉडल के बीच अंतर


34

मैं सोच रहा हूं कि मिश्रित और अनलिमिटेड जीएलएम में क्या अंतर हैं। उदाहरण के लिए, SPSS में ड्रॉप डाउन मेनू उपयोगकर्ताओं को या तो फिट करने की अनुमति देता है:

  • analyze-> generalized linear models-> generalized linear models और
  • analyze-> mixed models-> generalized linear

क्या वे लापता मूल्यों से अलग तरीके से व्यवहार करते हैं?

मेरा आश्रित चर द्विआधारी है और मेरे पास कई स्पष्ट और निरंतर स्वतंत्र चर हैं।


जवाबों:


62

सामान्यीकृत रैखिक मॉडल के आगमन ने हमें प्रतिगमन-प्रकार के मॉडल के निर्माण की अनुमति दी है जब प्रतिक्रिया चर का वितरण गैर-सामान्य है - उदाहरण के लिए, जब आपका DV द्विआधारी होता है। (यदि आप GLiMs के बारे में कुछ और जानना चाहते हैं, तो मैंने यहां एक व्यापक उत्तर लिखा है , जो उपयोगी हो सकता है, हालांकि संदर्भ अलग है।) हालांकि, एक GLIM, जैसे एक लॉजिस्टिक रिग्रेशन मॉडल, मानता है कि आपका डेटा स्वतंत्र है । उदाहरण के लिए, एक अध्ययन की कल्पना करें जो यह देखता है कि क्या बच्चे ने अस्थमा विकसित किया है। प्रत्येक बच्चा एक योगदान देता हैअध्ययन के लिए डेटा बिंदु - वे या तो अस्थमा है या वे नहीं है। कभी-कभी डेटा स्वतंत्र नहीं होते हैं, हालांकि। एक अन्य अध्ययन पर विचार करें जो यह देखता है कि क्या एक बच्चे को स्कूल के वर्ष के दौरान विभिन्न बिंदुओं पर सर्दी है। इस मामले में, प्रत्येक बच्चा कई डेटा बिंदुओं में योगदान देता है । एक समय में एक बच्चे को सर्दी लग सकती है, बाद में वे नहीं हो सकते हैं, और फिर भी बाद में उन्हें एक और सर्दी हो सकती है। ये डेटा स्वतंत्र नहीं हैं क्योंकि वे एक ही बच्चे से आए थे। इन आंकड़ों का उचित विश्लेषण करने के लिए, हमें किसी तरह इस गैर-स्वतंत्रता को ध्यान में रखना होगा। दो तरीके हैं: एक तरीका सामान्यीकृत आकलन समीकरणों का उपयोग करना है (जो आप उल्लेख नहीं करते हैं, इसलिए हम छोड़ देंगे)। दूसरा तरीका सामान्यीकृत रैखिक मिश्रित मॉडल का उपयोग करना है। GLiMM गैर-स्वतंत्रता के लिए यादृच्छिक प्रभाव (@MichaelChernick नोट्स के रूप में) जोड़कर हिसाब कर सकते हैं। इस प्रकार, उत्तर यह है कि आपका दूसरा विकल्प गैर-सामान्य दोहराया उपायों (या अन्यथा गैर-स्वतंत्र) डेटा के लिए है। (मैं @ मैक्रो की टिप्पणी के साथ रखने में, का उल्लेख करना चाहिए, कि जनरल ized रैखिक मिश्रित मॉडल विशेष मामले के रूप रैखिक मॉडल और, सामान्य रूप से वितरित डेटा के साथ इस्तेमाल किया जा सकता शामिल हैं इस प्रकार है। लेकिन सामान्य उपयोग में इस शब्द की ओर संकेत गैर सामान्य डेटा।)

अपडेट: (ओपी ने GEE के बारे में भी पूछा है, इसलिए मैं थोड़ा लिखूंगा कि तीनों एक-दूसरे से कैसे संबंधित हैं।)

यहाँ एक बुनियादी अवलोकन है:

  • एक विशिष्ट GLiM (मैं प्रोटोटाइप मामले के रूप में लॉजिस्टिक प्रतिगमन का उपयोग करूँगा) आपको कोवरिएट्स के एक फ़ंक्शन के रूप में एक स्वतंत्र बाइनरी प्रतिक्रिया को मॉडल करने देता है
  • GLMM आपको कोविरेट के एक फ़ंक्शन के रूप में प्रत्येक व्यक्ति क्लस्टर की विशेषताओं पर एक गैर-स्वतंत्र (या संकुल) बाइनरी प्रतिक्रिया सशर्त मॉडल देता है।
  • जीईई आपको कोविरेट के एक समारोह के रूप में गैर-स्वतंत्र बाइनरी डेटा की आबादी का मतलब मॉडल की प्रतिक्रिया देता है

चूंकि आपके पास प्रति प्रतिभागी के कई परीक्षण हैं, इसलिए आपका डेटा स्वतंत्र नहीं है; जैसा कि आप सही ढंग से ध्यान दें, "[टी] एक प्रतिभागी के भीतर के धारावाहिक पूरे समूह की तुलना में अधिक समान होने की संभावना है"। इसलिए, आपको या तो GLMM या GEE का उपयोग करना चाहिए।

फिर, समस्या यह है कि कैसे चुनें कि क्या GLMM या GEE आपकी स्थिति के लिए अधिक उपयुक्त होगा। इस प्रश्न का उत्तर आपके शोध के विषय पर निर्भर करता है - विशेष रूप से, आपके द्वारा किए गए अनुमानों का लक्ष्य। जैसा कि मैंने ऊपर कहा है, एक GLMM के साथ, बेटास आपको एक विशेष प्रतिभागी पर आपके सहसंयोजक में एक इकाई परिवर्तन के प्रभाव के बारे में बता रहे हैं, उनकी व्यक्तिगत विशेषताओं को देखते हुए। दूसरी ओर, GEE के साथ, बेटास आपके प्रश्न में संपूर्ण जनसंख्या की प्रतिक्रियाओं के औसत पर आपके कोवरिएट में एक इकाई परिवर्तन के प्रभाव के बारे में बता रहे हैं। यह समझ में लाने के लिए एक कठिन अंतर है, खासकर क्योंकि रैखिक मॉडल के साथ ऐसा कोई भेद नहीं है (जिस स्थिति में दोनों एक ही बात हैं)।

logit(pi)=β0+β1X1+bi
logit(p)=ln(p1p),     &      bN(0,σb2)
p β0(β0+bi)biβ0β1pilogitयहाँ छवि विवरण दर्ज करें
कल्पना करें कि यह भूखंड इस संभावना के लिए अंतर्निहित डेटा जनरेटिंग प्रक्रिया का प्रतिनिधित्व करता है कि छात्रों का एक छोटा वर्ग उस विषय पर दिए गए घंटों के निर्देशों के साथ किसी विषय पर एक परीक्षा पास करने में सक्षम होगा। प्रत्येक ग्रे कर्व्स छात्रों में से किसी एक के लिए अलग-अलग निर्देश के साथ परीक्षा उत्तीर्ण करने की संभावना का प्रतिनिधित्व करता है। बोल्ड कर्व पूरे क्लास में औसत है। इस मामले में, छात्र की विशेषताओं पर सशर्त शिक्षण के एक अतिरिक्त घंटे का प्रभाव हैβ1- प्रत्येक छात्र के लिए एक ही (यानी, एक यादृच्छिक ढलान नहीं है)। ध्यान दें, हालांकि, छात्रों की आधारभूत क्षमता उनके बीच भिन्न होती है - शायद IQ जैसी चीजों में अंतर के कारण (यानी, एक यादृच्छिक अवरोधन है)। हालांकि, कक्षा के लिए औसत संभावना छात्रों की तुलना में एक अलग प्रोफ़ाइल का अनुसरण करती है। यह आश्चर्यजनक रूप से प्रति-सहज परिणाम है: एक अतिरिक्त घंटे का निर्देश परीक्षा पास करने वाले प्रत्येक छात्र की संभावना पर एक बड़ा प्रभाव डाल सकता है , लेकिन पास होने वाले छात्रों के संभावित कुल अनुपात पर अपेक्षाकृत कम प्रभाव पड़ता है । ऐसा इसलिए है क्योंकि कुछ छात्रों के पास पहले से ही पास होने का एक बड़ा मौका हो सकता है जबकि अन्य के पास अभी भी बहुत कम मौका हो सकता है।

यह सवाल कि क्या आपको GLMM या GEE का उपयोग करना चाहिए, यह सवाल है कि आप इनमें से किस कार्य का अनुमान लगाना चाहते हैं। यदि आप किसी दिए गए छात्र के उत्तीर्ण होने की संभावना के बारे में जानना चाहते हैं (यदि, कहते हैं, तो आप छात्र थे , या छात्र के माता-पिता), तो आप GLMM का उपयोग करना चाहते हैं। दूसरी ओर, यदि आप जनसंख्या पर प्रभाव के बारे में जानना चाहते हैं (यदि, उदाहरण के लिए, आप शिक्षक या प्रिंसिपल थे), तो आप जीईई का उपयोग करना चाहेंगे।

दूसरे के लिए, गणितीय रूप से विस्तृत, इस सामग्री की चर्चा, @Macro द्वारा इस उत्तर को देखें।


2
यह एक अच्छा जवाब है, लेकिन मुझे लगता है कि यह, विशेष रूप से अंतिम वाक्य, लगभग इंगित करता है कि आप केवल गैर-सामान्य डेटा के लिए GLM या GLMM का उपयोग करते हैं, जो कि संभवत: इरादा नहीं था, क्योंकि साधारण गाऊसी रैखिक (मिश्रित) मॉडल भी नीचे आते हैं। जीएल (एम) एम श्रेणी।
मैक्रों

@ मैक्रो, आप सही कह रहे हैं, मैं हमेशा यह भूल जाता हूं। मैंने इसे स्पष्ट करने के लिए उत्तर संपादित किया। मुझे पता है अगर आपको लगता है कि यह अधिक की जरूरत है।
गुंग - को पुनः स्थापित मोनिका

मैंने सामान्यीकृत समीकरणों की भी जाँच की। क्या यह सही है कि जीएलआईएम की तरह, जीईई मानता है कि मेरा डेटा स्वतंत्र है? मेरे पास प्रति प्रतिभागी के लिए कई परीक्षण हैं। एक प्रतिभागी के भीतर परीक्षण पूरे समूह की तुलना में अधिक समान होने की संभावना है।
user9203

@gung, यद्यपि GEE "जनसंख्या-औसत" गुणांक का उत्पादन कर सकता है, अगर मैं अनुमान लगाना चाहता था वास्तविक आबादी में संभाव्यता के पैमाने पर औसत उपचार प्रभाव (ATE) ब्याज के द्विआधारी प्रतिसाद के लिए, मुझे लेने की आवश्यकता नहीं होगी। विषय-विशिष्ट दृष्टिकोण? एटीई की गणना करने का तरीका, मेरी जानकारी के अनुसार, प्रत्येक व्यक्ति के लिए उपचार के बिना और फिर उन मतभेदों को औसत करने के लिए अनुमानित संभावना का अनुमान लगाना है। क्या इसके लिए एक प्रतिगमन विधि की आवश्यकता नहीं है जो प्रत्येक व्यक्ति के लिए अनुमानित संभावनाएं उत्पन्न कर सकती है (इस तथ्य के बावजूद कि वे फिर औसत हैं)?
यकानोमिका

1
@Yakkanomica, यदि आप चाहते हैं कि यह सुनिश्चित है।
गूँग - मोनिका

6

कुंजी यादृच्छिक प्रभावों की शुरूआत है। गंग की कड़ी में इसका उल्लेख है। लेकिन मुझे लगता है कि इसका सीधा उल्लेख होना चाहिए था। यही मुख्य अंतर है।


+1, आप सही कह रहे हैं। मुझे उस बारे में स्पष्ट होना चाहिए था। मैंने इस बिंदु को शामिल करने के लिए अपना उत्तर संपादित किया।
गूँग - मोनिका

जब भी मैं एक यादृच्छिक प्रभाव जोड़ता हूं, जैसे कि मॉडल के लिए एक यादृच्छिक अवरोधन, मुझे एक त्रुटि संदेश मिलता है। मुझे लगता है कि यादृच्छिक प्रभाव जोड़ने के लिए मेरे पास पर्याप्त डेटा-पॉइंट नहीं हैं। क्या ऐसा हो सकता है? त्रुटि संदेश: glmm: अंतिम हेसियन मैट्रिक्स सकारात्मक निश्चित नहीं है, हालांकि सभी अभिसरण मानदंड संतुष्ट हैं। इस चेतावनी के बावजूद प्रक्रिया जारी है। बाद में उत्पादित परिणाम अंतिम पुनरावृत्ति पर आधारित होते हैं। मॉडल फिट की वैधता अनिश्चित है।
user9203

3

मेरा सुझाव है कि आप कुछ समय पहले पूछे गए प्रश्न के उत्तर की भी जांच करें:

सामान्य रैखिक मॉडल बनाम सामान्यीकृत रैखिक मॉडल (एक पहचान लिंक फ़ंक्शन के साथ?)


5
मुझे नहीं लगता कि वास्तव में इस सवाल का जवाब है, जो कि GLM और मिश्रित-प्रभाव मॉडल को चलाने के लिए SPSS क्षमताओं के बारे में है, और यह कैसे लापता मानों को संभालता है। क्या इसके बजाय टिप्पणी करना था? अन्यथा, कृपया स्पष्ट करें।
ch

क्षमा करें, शुरुआती पोस्ट में दो "प्रश्न" लग रहे थे। 1. मैं सोच रहा हूं कि क्या .... और 2. क्या वे लापता मूल्यों से अलग तरीके से निपटते हैं? मैं पहले प्रश्न के साथ मदद करने की कोशिश कर रहा था।
बेहकाद

1
काफी उचित। आगे की व्याख्या के बिना, मुझे अभी भी लगता है कि यह ओपी के लिए एक टिप्पणी के रूप में बेहतर होगा।
chl
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.