डेटा में कुछ भिन्नता होने के बावजूद मुझे अपने मिश्रित मॉडल में एक यादृच्छिक प्रभाव का शून्य संस्करण क्यों मिलता है?


22

हमने निम्नलिखित सिंटैक्स का उपयोग करके एक मिश्रित प्रभाव लॉजिस्टिक रिग्रेशन चलाया है;

# fit model
fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0,
             family = binomial(link="logit"))
# model output
summary(fm0)

विषय और आइटम यादृच्छिक प्रभाव हैं। हम एक विषम परिणाम प्राप्त कर रहे हैं जो विषय शब्द के लिए गुणांक और मानक विचलन दोनों शून्य हैं;

Generalized linear mixed model fit by maximum likelihood (Laplace
Approximation) [glmerMod]
Family: binomial  ( logit )
Formula: GoalEncoding ~ 1 + Group + (1 | Subject) + (1 | Item)
Data: exp0

AIC      BIC      logLik deviance df.resid 
449.8    465.3   -220.9    441.8      356 

Scaled residuals: 
Min     1Q Median     3Q    Max 
-2.115 -0.785 -0.376  0.805  2.663 

Random effects:
Groups  Name        Variance Std.Dev.
Subject (Intercept) 0.000    0.000   
Item    (Intercept) 0.801    0.895   
Number of obs: 360, groups:  Subject, 30; Item, 12

Fixed effects:
                Estimate Std. Error z value Pr(>|z|)    
 (Intercept)     -0.0275     0.2843    -0.1     0.92    
 GroupGeMo.EnMo   1.2060     0.2411     5.0  5.7e-07 ***
 ---
 Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

 Correlation of Fixed Effects:
             (Intr)
 GroupGM.EnM -0.002

ऐसा नहीं होना चाहिए क्योंकि जाहिर है कि विषयों में भिन्नता है। जब हम उसी विश्लेषण को स्टैटा में चलाते हैं

xtmelogit goal group_num || _all:R.subject || _all:R.item

Note: factor variables specified; option laplace assumed

Refining starting values: 

Iteration 0:   log likelihood = -260.60631  
Iteration 1:   log likelihood = -252.13724  
Iteration 2:   log likelihood = -249.87663  

Performing gradient-based optimization: 

Iteration 0:   log likelihood = -249.87663  
Iteration 1:   log likelihood = -246.38421  
Iteration 2:   log likelihood =  -245.2231  
Iteration 3:   log likelihood = -240.28537  
Iteration 4:   log likelihood = -238.67047  
Iteration 5:   log likelihood = -238.65943  
Iteration 6:   log likelihood = -238.65942  

Mixed-effects logistic regression               Number of obs      =       450
Group variable: _all                            Number of groups   =         1

                                                Obs per group: min =       450
                                                               avg =     450.0
                                                               max =       450

Integration points =   1                        Wald chi2(1)       =     22.62
Log likelihood = -238.65942                     Prob > chi2        =    0.0000

------------------------------------------------------------------------------
        goal |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
   group_num |   1.186594    .249484     4.76   0.000     .6976147    1.675574
       _cons |  -3.419815   .8008212    -4.27   0.000    -4.989396   -1.850234
------------------------------------------------------------------------------

------------------------------------------------------------------------------
  Random-effects Parameters  |   Estimate   Std. Err.     [95% Conf. Interval]
-----------------------------+------------------------------------------------
_all: Identity               |
               sd(R.subject) |   7.18e-07   .3783434             0           .
-----------------------------+------------------------------------------------
_all: Identity               |
                 sd(R.trial) |   2.462568   .6226966      1.500201    4.042286
------------------------------------------------------------------------------
LR test vs. logistic regression:     chi2(2) =   126.75   Prob > chi2 = 0.0000

Note: LR test is conservative and provided only for reference.
Note: log-likelihood calculations are based on the Laplacian approximation.

परिणाम विषय के अनुसार गैर-शून्य गुणांक / एसई के साथ अपेक्षित हैं।

मूल रूप से हमने सोचा था कि यह विषय के कोडिंग के साथ कुछ किया जा सकता है, लेकिन इसे स्ट्रिंग से पूर्णांक में बदलने से कोई फर्क नहीं पड़ा।

स्पष्ट रूप से विश्लेषण ठीक से काम नहीं कर रहा है, लेकिन हम कठिनाइयों के स्रोत को बताने में असमर्थ हैं। (एनबी इस मंच पर किसी और को इसी तरह के मुद्दे का सामना कर रहा है, लेकिन यह धागा सवाल के लिंक से अनुत्तरित है )


2
आप कहते हैं कि ऐसा नहीं होना चाहिए क्योंकि "स्पष्ट रूप से विषयों में भिन्नता है", लेकिन चूंकि हम नहीं जानते कि subjectइन चरों के बारे में क्या है या कुछ और है, इसलिए यह हमारे लिए "स्पष्ट" नहीं है! "गैर-शून्य गुणांक!" आपके स्टैटा एनालिसिस से सब्जेक्ट टर्म के लिए 7.18e-07 है! मैं तकनीकी रूप से अनुमान लगाता हूं, यह "नॉन-जीरो" है, लेकिन यह 0 या तो बहुत दूर नहीं है ...!
smillig

टिप्पणियों के लिए बहुत धन्यवाद। विषय एक अध्ययन में भाग लेने वाले हैं और प्रदर्शन में भिन्नता है। औसत स्कोर 11% के मानक विचलन के साथ, 39% सही थे। मैं उम्मीद करूंगा कि रिपोर्ट किए गए आँकड़ों में यह 0.000 से अधिक होगा, लेकिन गलत हो सकता है। हां, बेशक 7.18e-07 0.000 के बराबर है, और 0.000 आवश्यक रूप से शून्य नहीं है।
निक रिचेस

1
प्रत्येक विषय को कितनी बार जांचा / परखा गया? आपके शोध के महत्वपूर्ण पहलुओं को जाने बिना, अगर स्टाटा आपको बताता है कि विषयों के भीतर भिन्नता 0.000000718 है (0.378 की मानक त्रुटि के साथ) और आर आपको बताता है कि यह 0.000 है, तो यहां कहानी नहीं है कि वास्तव में कोई भिन्नता नहीं है विषय स्तर पर? यह भी ध्यान दें कि स्टैटा आपको विषय भिन्नता के लिए एक आत्मविश्वास अंतराल नहीं देता है।
स्मगलिग

टिप्पणी के लिए फिर से धन्यवाद। 11 अवसरों पर विषयों का परीक्षण किया गया। मुझे लगता है कि इसका मतलब है कि एक बार समूह और आइटम प्रभाव के लिए जिम्मेदार हैं, प्रतिभागियों में बहुत कम भिन्नता है। यह थोड़ा "संदिग्ध" दिखता है, लेकिन मुझे लगता है कि दो अलग-अलग विश्लेषणों में निरंतरता है?
निक रिचेस

जवाबों:


28

यह https://bbolker.github.io/mixedmodels-misc/glmmFAQ.html ("एकवचन मॉडल" की खोज) में कुछ लंबाई पर चर्चा की गई है ; यह आम है, खासकर जब समूहों की एक छोटी संख्या होती है (हालांकि 30 इस संदर्भ में विशेष रूप से छोटा नहीं है)।

lme4और कई अन्य पैकेजों के बीच एक अंतर यह है कि कई पैकेज, जिनमें lme4पूर्ववर्ती भी शामिल हैं nlme, इस तथ्य को संभालते हैं कि वेरिएशन का अनुमान लॉग स्केल पर फिटिंग विचरण द्वारा गैर-नकारात्मक होना चाहिए: इसका मतलब है कि विचरण अनुमान बिल्कुल शून्य नहीं हो सकता, बस बहुत बहुत छोटा। lme4, इसके विपरीत, विवश अनुकूलन का उपयोग करता है, इसलिए यह उन मूल्यों को वापस कर सकता है जो बिल्कुल शून्य हैं ( अधिक चर्चा के लिए http://arxiv.org/abs/1406.5823 पृष्ठ 24 देखें )। http://rpubs.com/bbolker/6226 एक उदाहरण देता है।

विशेष रूप से, स्टैटा से अपने बीच-विषय विचरण परिणामों को करीब से देखने पर, आपके पास .3783434 (इस मामले में अनिवार्य रूप से बेकार) के वाल्ड मानक विचलन के साथ 7.18e-07 (-3.4 के अवरोधन के सापेक्ष) का अनुमान है! 95% CI को "0" के रूप में सूचीबद्ध किया गया; यह तकनीकी रूप से "गैर-शून्य" है, लेकिन यह शून्य के करीब है क्योंकि कार्यक्रम रिपोर्ट करेगा ...

यह अच्छी तरह से जाना जाता है और सैद्धांतिक रूप से साबित होता है (उदाहरण स्ट्रैम और ली बॉयोमीट्रिक्स 1994) कि विचरण घटकों के लिए शून्य वितरण शून्य पर एक बिंदु द्रव्यमान ('स्पाइक') और शून्य से दूर ची-चुकता वितरण का मिश्रण है। अप्रत्याशित रूप से (लेकिन मुझे नहीं पता कि यह सिद्ध है / अच्छी तरह से ज्ञात है), विचरण घटक के अनुमानों के नमूना वितरण में अक्सर शून्य पर एक स्पाइक होता है, यहां तक ​​कि जब सही मूल्य शून्य नहीं होता है - तो देखें http://rpubs.com/ उदाहरण के लिए bbolker / 4187 , या ?bootMerपृष्ठ में अंतिम उदाहरण :

library(lme4)
library(boot)
## Check stored values from a longer (1000-replicate) run:
load(system.file("testdata","boo01L.RData",package="lme4"))
plot(boo01L,index=3) 

यहाँ छवि विवरण दर्ज करें


2
+1। बहन के धागे में एक और अच्छा जवाब है: आंकड़े.stackexchange.com/a/34979 (मैं भविष्य के पाठकों के लिए इस लिंक को छोड़ रहा हूं)।
अमीबा का कहना है कि मोनिका

14

मुझे नहीं लगता कि कोई समस्या है। मॉडल आउटपुट से सबक यह है कि यद्यपि विषय के प्रदर्शन में "स्पष्ट रूप से" भिन्नता है, इस विषय भिन्नता की सीमा पूरी तरह से या लगभग पूरी तरह से केवल अवशिष्ट विचरण शब्द द्वारा पूरी तरह से स्पष्ट की जा सकती है। सभी अवलोकन की गई भिन्नता को समझाने के लिए अतिरिक्त विषय-स्तरीय यादृच्छिक प्रभाव को जोड़कर वारंट के लिए पर्याप्त अतिरिक्त विषय-स्तरीय भिन्नता नहीं है।

इस पर इस तरीके से विचार करें। कल्पना कीजिए कि हम इसी प्रतिमान के तहत प्रायोगिक डेटा का अनुकरण कर रहे हैं। हम पैरामीटर सेट करते हैं ताकि परीक्षण-दर-परीक्षण के आधार पर अवशिष्ट भिन्नता हो, लेकिन 0 विषय-स्तरीय भिन्नता (यानी, सभी विषयों का एक ही "सही अर्थ," प्लस त्रुटि) है। अब हर बार जब हम मापदंडों के इस सेट से डेटा का अनुकरण करते हैं, तो हम निश्चित रूप से पाएंगे कि विषयों में बिल्कुल समान प्रदर्शन नहीं है। कुछ कम स्कोर के साथ, कुछ उच्च स्कोर के साथ। लेकिन यह सब सिर्फ अवशिष्ट परीक्षण-स्तर भिन्नता के कारण है। हम "जानते हैं" (सिमुलेशन मापदंडों को निर्धारित करने के आधार पर) कि वास्तव में कोई विषय-स्तरीय भिन्नता नहीं है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.