रैंडम बनाम रैंडम इफेक्ट्स


10

मैंने हाल ही में सामान्यीकृत रैखिक मिश्रित मॉडल के बारे में सीखना शुरू किया है और यह पता लगाने के लिए आर का उपयोग कर रहा था कि समूह की सदस्यता को या तो तय या यादृच्छिक प्रभाव से क्या अंतर पड़ता है। विशेष रूप से, मैं यहाँ पर चर्चा किए गए उदाहरणों को देख रहा हूँ:

http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm

http://www.ats.ucla.edu/stat/r/dae/melogit.htm

जैसा कि इस ट्यूटोरियल में बताया गया है, डॉक्टर आईडी का प्रभाव सराहनीय है और मैं बेहतर परिणाम देने के लिए रैंडम इंटरसेप्ट के साथ मिश्रित मॉडल की उम्मीद कर रहा था। हालांकि, दो तरीकों के लिए एआईसी के मूल्यों की तुलना करने से पता चलता है कि यह मॉडल बदतर है:

> require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv")
> hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married)
> GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM)

Call:
glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial, 
data = hdp)

Deviance Residuals: 
Min       1Q   Median       3Q      Max  
-2.5265  -0.6278  -0.2272   0.5492   2.7329  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.560e+01  1.219e+03  -0.013    0.990    
Age         -5.869e-02  5.272e-03 -11.133  < 2e-16 ***
Married1     2.688e-01  6.646e-02   4.044 5.26e-05 ***
IL6         -5.550e-02  1.153e-02  -4.815 1.47e-06 ***
DID2         1.805e+01  1.219e+03   0.015    0.988    
DID3         1.932e+01  1.219e+03   0.016    0.987   

[...]

DID405       1.566e+01  1.219e+03   0.013    0.990    
DID405       1.566e+01  1.219e+03   0.013    0.990    
DID406      -2.885e-01  3.929e+03   0.000    1.000    
DID407       2.012e+01  1.219e+03   0.017    0.987    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 10353  on 8524  degrees of freedom
Residual deviance:  6436  on 8115  degrees of freedom
AIC: 7256

Number of Fisher Scoring iterations: 17


> GLMM = glmer(remission~Age+Married+IL6+(1|DID),data=hdp,family=binomial) ; m

Generalized linear mixed model fit by the Laplace approximation 
Formula: remission ~ Age + Married + IL6 + (1 | DID) 
Data: hdp 
AIC  BIC logLik deviance
7743 7778  -3867     7733
Random effects:
Groups Name        Variance Std.Dev.
DID    (Intercept) 3.8401   1.9596  
Number of obs: 8525, groups: DID, 407

Fixed effects:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.461438   0.272709   5.359 8.37e-08 ***
Age         -0.055969   0.005038 -11.109  < 2e-16 ***
Married1     0.260065   0.063736   4.080 4.50e-05 ***
IL6         -0.053288   0.011058  -4.819 1.44e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Correlation of Fixed Effects:
         (Intr) Age    Marrd1
Age      -0.898              
Married1  0.070 -0.224       
IL6      -0.162  0.012 -0.033


> extractAIC(GLM) ; extractAIC(GLMM)

[1]  410.000 7255.962
[1]    5.000 7743.188

इस प्रकार, मेरे प्रश्न हैं:

(१) क्या दो कार्यों द्वारा प्रदान किए गए एआईसी मूल्यों की तुलना करना उचित है? यदि हां, तो निश्चित प्रभाव मॉडल बेहतर क्यों करता है?

(२) यह निर्धारित करने का सबसे अच्छा तरीका क्या है कि निश्चित या यादृच्छिक प्रभाव अधिक महत्वपूर्ण हैं (यानी यह निर्धारित करने के लिए कि चिकित्सक की वजह से परिवर्तनशीलता रोगी की विशेषताओं से अधिक महत्वपूर्ण है?

जवाबों:


7

निश्चित प्रभाव मॉडल और यादृच्छिक प्रभाव मॉडल डेटा के विभिन्न प्रश्न पूछते हैं। समूह-स्तरीय डमी चर का एक सेट निर्दिष्ट करना अनिवार्य रूप से औसत प्रतिक्रिया में सभी समूह-स्तर के अप्रतिष्ठित विषमता के लिए नियंत्रण करता है, जिससे आपके अनुमान केवल इकाइयों के भीतर परिवर्तनशीलता को दर्शाते हैं। रैंडम प्रभाव मॉडल इस धारणा के साथ शुरू होते हैं कि (जो भी प्रभाव) की एक मेटा-आबादी है, और यह कि आपका नमूना उस आबादी के लिए कई आकर्षित करता है। इसलिए विषम परिणामों के आसपास अपने परिणामों की एंकरिंग करने के बजाय, आपके डेटा का उपयोग उस (आमतौर पर सामान्य) वितरण के मापदंडों को स्पष्ट करने के लिए किया जाएगा, जहाँ से आपका डेटा माना जाता था।

यह अक्सर कहा जाता है कि निश्चित प्रभाव वाले मॉडल आपके पास मौजूद डेटा पर आक्षेप का संचालन करने के लिए अच्छे होते हैं, और यादृच्छिक प्रभाव वाले मॉडल कुछ बड़ी आबादी पर अनुमान लगाने की कोशिश करने के लिए अच्छे होते हैं जिससे आपका डेटा एक यादृच्छिक नमूना है।

जब मैंने निश्चित प्रभाव मॉडल के बारे में सीखा, तो वे त्रुटि घटकों और पैनल डेटा का उपयोग करके प्रेरित थे। किसी दिए गए इकाई के कई अवलोकन करें, और समय में एक यादृच्छिक उपचार ।t

yit=αi+βTit+ϵit

आप अपनी त्रुटि अवधि के उस घटक में अपनी त्रुटि अवधि को तोड़ सकते हैं जो समय के साथ बदलता रहता है, और जो ऐसा नहीं करता है:

yit=αi+βTit+ei+uit

अब समूहवार माध्य को दोनों ओर से घटाएँ:

yity¯i=αiα¯i+β(TitT¯i)+eie¯i+uitu¯it

ऐसी चीजें जो द्वारा सब्सक्राइब नहीं की गई हैं, वे मूल घटाव द्वारा समीकरण से बाहर आ जाती हैं - जो यह कहना है कि समय के साथ औसत कभी भी वैसा ही होता है जैसा कि कभी भी बदल जाता है। इसमें आपकी त्रुटि अवधि के आपके गैर-समय-भिन्न घटक शामिल हैं। इस प्रकार आपके अनुमान समय-अपरिवर्तनीय विषमता से अप्रभावित हैं। t

यह काफी एक यादृच्छिक प्रभाव मॉडल के लिए काम नहीं करता है - अपने गैर -indexed चर कि परिवर्तन (परिवर्तन "भीतर") द्वारा sopped नहीं किया जाएगा। जैसे, आप उन चीजों के प्रभावों पर अनुमान लगा सकते हैं जो समूह के भीतर भिन्न नहीं होती हैं। वास्तविक दुनिया में, ऐसी चीजों का महत्व है। इस प्रकार, यादृच्छिक प्रभाव "डेटा को मॉडलिंग" करने के लिए अच्छे हैं, जबकि निश्चित प्रभाव मॉडल विशेष शर्तों के निष्पक्ष अनुमानों के करीब होने के लिए अच्छे हैं। एक यादृच्छिक प्रभाव मॉडल के साथ, आप उस पूरी तरह से हटाने का दावा नहीं कर सकते ।e itei

इस उदाहरण में, समय समूहीकरण चर है। आपके उदाहरण में, यह डीआईडी ​​है। (अर्थात: यह सामान्यीकृत करता है)


1

1) तुलना करना उचित है, बस उन दो मॉडलों के साथ नहीं। आप तुलना करना चाहेंगे:

GLM <- glm(remission~Age+Married+IL6, data=hdp, family=binomial)

साथ में

GLMM <- glmer(remission~Age+Married+IL6+(1|DID), data=hdp, family=binomial)

और आप इसे एक एनोवा के साथ कर सकते हैं:

anova(GLM, GLMM)

(यह सुनिश्चित नहीं है कि यह glmऔर glmerपरिणाम के साथ काम करेगा , क्योंकि वे अलग-अलग आर ऑब्जेक्ट हो सकते हैं। आपको दो फ़ंक्शंस का उपयोग करना पड़ सकता है, जिनमें तुलनीय रिटर्न ऑब्जेक्ट्स, जैसे lmeऔर glsअपने आप को एवा करना है।)

यह देखने के लिए कि क्या रैंडम डॉक्टर इफ़ेक्ट महत्वपूर्ण है, ऑरो एक लॉग-लाइबिलिटी रेशियो टेस्ट करेगा। आपको महत्व घोषित करने से पहले उस पी-मान को 2 से विभाजित करना होगा क्योंकि आप अशक्त परिकल्पना का परीक्षण कर रहे हैं कि यादृच्छिक डॉक्टर प्रभाव 0 है, और 0 एक विचरण के लिए पैरामीटर स्थान की सीमा पर है (वास्तविक वितरण जो आप उपयोग कर रहे हैं। परीक्षण और वितरण का मिश्रण है - लेकिन मैं इस बिंदु पर अपनी अज्ञानता की सीमा के पास हूं)। χ χ02χ12

मेरे लिए नेस्टेड मॉडल बिल्डिंग और परिकल्पना परीक्षण की प्रक्रिया को समझने के लिए सबसे अच्छी पुस्तक वेस्ट, वेल्श और गैलेकी (2007) रैखिक मिश्रित मॉडल: एक व्यावहारिक मार्गदर्शक रही है । वे हर कदम से कदम मिलाकर चलते हैं।

2) यदि आपके पास प्रति रोगी कई अवलोकन हैं तो आप रोगी के लिए एक यादृच्छिक प्रभाव भी जोड़ सकते हैं। फिर धैर्य बनाम डॉक्टर के सापेक्ष महत्व का परीक्षण करने के लिए आप रोगी के पूर्वानुमान प्रभाव को देख सकते हैं। चिकित्सक के लिए भविष्य कहनेवाला प्रभाव। प्रत्येक के लिए यादृच्छिक प्रभाव शर्तें रोगियों और डॉक्टरों के बीच विचरण की मात्रा को निर्धारित करेगी, अगर यह एक ऐसा प्रश्न है जिसमें आप रुचि रखते हैं।

(अगर कोई गलत है तो कृपया मुझे सही करें!)


मुझे यकीन नहीं है कि यह दोनों एक निश्चित प्रभाव के DIDरूप में समझ में आता है , और 2 डी मॉडल में एक यादृच्छिक अवरोधन है। इसके अलावा, यह 1 मॉडल में एक निश्चित प्रभाव के रूप में होने का मतलब है कि विकल्प बी / टी इन 2 के बारे में होगा कि किस तरह के प्रभाव के बारे में सोचना है , न कि यह शामिल करने की आवश्यकता है। एक अलग नोट पर, मुझे लगता है कि आपके पास एक आइटम (2) है; क्या आपका मतलब आइटम (1) कहीं है? DID
गूँग - मोनिका

आप बिल्कुल सही कह रहे है; मैं ओपी के मूल glm फॉर्मूले से जा रहा था, जिसे 1 स्थान पर निश्चित प्रभाव के रूप में DID नहीं होना चाहिए था। अब चुनाव इस बात के बीच है कि क्या डीआईडी ​​को एक यादृच्छिक प्रभाव के रूप में मानने से मॉडल में कोई मूल्य जुड़ जाता है।
क्रिस्टोफर पोइल

1

मॉडल बहुत अलग हैं। Glm मॉडल कुलीनता में कमी (एक अशक्त मॉडल से) को संबोधित कर रहा है, जब सभी doctorID प्रभावों का अनुमान लगाया जा रहा है और उन्हें पैरामीटर अनुमान सौंपा जा रहा है। आप निश्चित रूप से देखते हैं, कि आयु, विवाहित, और IL6 सभी के दो मॉडल में समान वाल्ड आँकड़े हैं, है ना? मेरी समझ (एक अत्यधिक परिष्कृत नहीं जिसे मैं स्वीकार करूंगा) यह है कि मिश्रित मॉडल डॉक्टरआईडी को उपद्रव कारक या स्ट्रैट के रूप में मान रहा है, अर्थात् "प्रभाव" जिसे किसी विशेष माता-पिता के वितरण से खींचा नहीं जा सकता है। मुझे यह सोचने का कोई कारण नहीं दिखता है कि मिश्रित मॉडल का उपयोग करने से "डॉक्टर-प्रभाव" की आपकी समझ में सुधार होगा, वास्तव में इसके विपरीत।

यदि आपकी रुचि आयु, विवाहित या आईएल 6 के प्रभावों में थी, तो मैंने कल्पना की होगी कि आप एआईसी की तुलना उन दो मॉडलों में नहीं करेंगे, बल्कि एआईसी में समान मॉडलिंग संरचना के भीतर रुचि के कोविरेट्स को हटाने के साथ मतभेदों के बीच होंगे।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.