एक बहु-स्तरीय मॉडल में, यादृच्छिक प्रभाव सहसंबंध मापदंडों का आकलन न करने का व्यावहारिक निहितार्थ क्या हैं?


27

एक बहु-स्तरीय मॉडल में, यादृच्छिक प्रभाव सहसंबंध मापदंडों का आकलन न करने का व्यावहारिक और व्याख्या-संबंधी निहितार्थ क्या हैं? यह पूछने का व्यावहारिक कारण यह है कि आर में लैमर फ्रेमवर्क में, एमसीएमसी तकनीकों के माध्यम से पी-वैल्यू का अनुमान लगाने के लिए कोई कार्यान्वित विधि नहीं है जब मापदंडों के बीच सहसंबंध के मॉडल में अनुमान लगाया जाता है।

उदाहरण के लिए, इस उदाहरण को देखते हुए (नीचे उद्धृत अंश), एम 2 बनाम एम 3 के व्यावहारिक निहितार्थ क्या हैं। जाहिर है, एक मामले में पी 5 का अनुमान नहीं होगा और दूसरे में यह होगा।

प्रशन

  1. व्यावहारिक कारणों से (एमसीएमसी तकनीकों के माध्यम से एक पी-वैल्यू प्राप्त करने की इच्छा) किसी को पी 5 के काफी गैर-शून्य होने पर भी यादृच्छिक प्रभावों के बीच संबंध के बिना एक मॉडल फिट करना चाह सकते हैं। यदि कोई ऐसा करता है, और फिर MCMC तकनीक के माध्यम से पी-मानों का अनुमान लगाता है, तो क्या परिणाम व्याख्या योग्य हैं? (मुझे पता है कि @Ben बोल्कर ने पहले उल्लेख किया है कि "MCMC के साथ संयोजन परीक्षण थोड़ा असंगत है, सांख्यिकीय रूप से, हालांकि मैं ऐसा करने के लिए आग्रह को समझता हूं (विश्वास अंतराल प्राप्त करना अधिक सहायक है)" , इसलिए यह आपको बेहतर नींद देगा रात के नाटक में मैंने कहा कि विश्वास अंतराल।)
  2. यदि कोई P5 का अनुमान लगाने में विफल रहता है, तो क्या यह दावा है कि यह 0 है?
  3. यदि P5 वास्तव में गैर-शून्य है, तो किस तरह से P1-P4 के अनुमानित मूल्य प्रभावित होते हैं?
  4. यदि पी 5 वास्तव में गैर-शून्य है, तो किस तरह से पी 1-पी 4 के लिए त्रुटि के अनुमान प्रभावित होते हैं?
  5. यदि P5 वास्तव में गैर-शून्य है, तो P5 त्रुटिपूर्ण को शामिल करने में विफल रहने वाले मॉडल की व्याख्या किन तरीकों से की जाती है?

@ माइक लॉरेंस के उत्तर से उधार लेना (जो लोग मुझसे अधिक जानकार हैं वे इसे पूर्ण मॉडल संकेतन के साथ बदलने के लिए स्वतंत्र हैं, मुझे पूरी तरह से विश्वास नहीं है कि मैं उचित निष्ठा के साथ ऐसा कर सकता हूं):

एम 2: V1 ~ (1|V2) + V3 + (0+V3|V2)(अनुमान P1 - P4)

M3: V1 ~ (1+V3|V2) + V3(अनुमान P1-P5)

पैरामीटर जिनका अनुमान लगाया जा सकता है:

P1 : एक वैश्विक अवरोधन

P2 : रैंडम प्रभाव वी 2 के लिए इंटरसेप्ट करता है (यानी वी 2 के प्रत्येक स्तर के लिए, ग्लोबल इंटरसेप्ट से उस स्तर के इंटरसेप्ट का विचलन)

P3 : V3 के प्रभाव (ढलान) के लिए एक एकल वैश्विक अनुमान

पी 4 : वी 3 के प्रत्येक स्तर के भीतर वी 3 का प्रभाव (अधिक विशेष रूप से, जिस हद तक वी 3 का प्रभाव किसी दिए गए स्तर के भीतर वी 3 के वैश्विक प्रभाव से भटकता है), जबकि अवरोधन विचलन और वी 3 प्रभाव विचलन के बीच स्तरों पर एक शून्य सहसंबंध को लागू करना। वी 2 की।

पी 5 : वी 2 के स्तरों के बीच अवरोधन विचलन और वी 3 विचलन के बीच संबंध

L का उपयोग करके R में कोड के साथ पर्याप्त रूप से बड़े और व्यापक सिमुलेशन से प्राप्त उत्तर स्वीकार्य होंगे।



@ जैकटैनर: ऐसा नहीं लगता कि आपको वहां संतुष्टि मिली। इस सवाल के जवाब में आपकी चिंताओं को भी संबोधित किया जाए तो बहुत अच्छा होगा।
रुसेलपिएर्स

4
आपके कई प्रश्नों का सटीक उत्तर देते हुए - "क्या होता है _______ जब मैं मॉडल को _______ तरीके से याद करता हूं" - संभवत: बिना किसी देरी के, संभवत: अचूक, सिद्धांत के बिना असंभव है (हालांकि यह एक विशेष हो सकता है जहां कुछ संभव है - मैं यकीन नहीं होता)। जब मैं ढलान और अवरोधन अत्यधिक सहसंबद्ध होता है, तो डेटा का अनुकरण करने के लिए उपयोग की जाने वाली रणनीति है, दो मॉडल को असंबद्ध होने के लिए विवश करने वाले मॉडल को फिट करें और जब सही ढंग से निर्दिष्ट मॉडल (यानी "संवेदनशीलता विश्लेषण") के साथ परिणामों की तुलना करें।
मैक्रो

4
आपके प्रश्नों के लिए, मैं 80 (लेकिन 100 नहीं)% निम्न में से निश्चित हूं: पुनः। # 2, हां, यदि आप सहसंबंध का अनुमान नहीं लगाते हैं, तो आप इसे 0 होने के लिए मजबूर करते हैं; बाकी के लिए, यदि सहसंबंध वास्तव में 0 नहीं है , तो आप अपने डेटा की गैर-स्वतंत्रता को गलत बता रहे हैं। बेटास फिर भी निष्पक्ष हो सकते हैं, लेकिन पी-वैल्यू बंद हो जाएंगे (और क्या वे बहुत अधिक हैं या बहुत कम निर्भर हैं और पता नहीं हो सकता है)। इस प्रकार, बेटों की व्याख्या सामान्य रूप से आगे बढ़ने में सक्षम हो सकती है, लेकिन 'महत्व' की व्याख्या गलत होगी।
गूँग -

2
@ मकारो: मेरी आशा थी कि एक इनाम के बजाय सिद्धांत के आधार पर एक अच्छा जवाब मुफ्त में दस्तक दे सकता है। एक अनुकार के साथ मैं अक्सर चिंतित रहूँगा कि मैंने एक उपयुक्त किनारे के मामले को नहीं उठाया। मैं सिमुलेशन चलाने में बहुत अच्छा हूं, लेकिन हमेशा थोड़ा महसूस करता हूं ... अनिश्चित हूं कि मैं सभी सही सिमुलेशन चला रहा हूं (हालांकि मुझे लगता है कि मैं यह तय करने के लिए पत्रिका संपादकों को छोड़ सकता हूं)। मुझे एक और सवाल पूछना पड़ सकता है कि किन परिदृश्यों को शामिल किया जाए।
russellpierce

जवाबों:


16

नींद के आंकड़ों पर विचार करें, lme4 में शामिल। बेट्स ने lme4 के बारे में अपनी ऑनलाइन पुस्तक में इस पर चर्चा की । अध्याय 3 में, वह डेटा के लिए दो मॉडल मानता है।

M0:Reaction1+Days+(1|Subject)+(0+Days|Subject)

तथा

MA:Reaction1+Days+(Days|Subject)

अध्ययन में 18 विषयों को शामिल किया गया, 10 नींद से वंचित दिनों की अवधि में अध्ययन किया गया। आधार रेखा पर और बाद के दिनों में प्रतिक्रिया समय की गणना की गई। प्रतिक्रिया समय और नींद की कमी की अवधि के बीच एक स्पष्ट प्रभाव है। विषयों के बीच भी महत्वपूर्ण अंतर हैं। मॉडल ए यादृच्छिक अवरोधन और ढलान प्रभाव के बीच बातचीत की संभावना के लिए अनुमति देता है: कल्पना कीजिए, कहते हैं, खराब प्रतिक्रिया समय वाले लोग नींद की कमी के प्रभाव से अधिक तीव्रता से पीड़ित होते हैं। यह यादृच्छिक प्रभावों में एक सकारात्मक सहसंबंध होगा।

बेट्स के उदाहरण में, जाली प्लाट से कोई स्पष्ट संबंध नहीं था और मॉडलों के बीच कोई महत्वपूर्ण अंतर नहीं था। हालांकि, ऊपर दिए गए प्रश्न की जांच करने के लिए, मैंने निश्चिंतता के सज्जित मूल्यों को लेने का फैसला किया, सहसंबंध को क्रैंक किया और दो मॉडलों के प्रदर्शन को देखा।

जैसा कि आप छवि से देख सकते हैं, लंबी प्रतिक्रिया समय प्रदर्शन के अधिक नुकसान के साथ जुड़ा हुआ है। अनुकृति के लिए प्रयुक्त सहसंबंध 0.58 था

यहाँ छवि विवरण दर्ज करें

मैंने अपने कृत्रिम डेटा के सज्जित मूल्यों के आधार पर, lme4 में अनुकरण पद्धति का उपयोग करते हुए 1000 नमूनों का अनुकरण किया। मैंने M0 और Ma को प्रत्येक में फिट किया और परिणामों को देखा। मूल डेटा सेट में 180 अवलोकन थे (प्रत्येक 18 विषयों के लिए 10), और नकली डेटा में समान संरचना है।

लब्बोलुआब यह है कि बहुत कम अंतर है।

  1. दोनों मॉडलों के अंतर्गत निश्चित मानदंड बिल्कुल समान हैं।
  2. यादृच्छिक प्रभाव थोड़ा अलग हैं। प्रत्येक नकली नमूने के लिए 18 अवरोधन और 18 ढलान यादृच्छिक प्रभाव हैं। प्रत्येक नमूने के लिए, इन प्रभावों को 0 में जोड़ने के लिए मजबूर किया जाता है, जिसका अर्थ है कि दो मॉडल के बीच का अंतर है (कृत्रिम रूप से) 0. लेकिन भिन्नता और सह-भिन्नताएं हैं। मा के तहत औसत दर्जे का कोविरियन 104 था, जो M0 (वास्तविक मूल्य, 112) के तहत 84 था। ढलानों और अंतःक्षेपों के भिन्न रूप एमए से एमए से बड़े थे, संभवतः एक मुक्त सहसंयोजक पैरामीटर की अनुपस्थिति में आवश्यक अतिरिक्त wiggle कमरा प्राप्त करने के लिए।
  3. लैमर के लिए एनोवा विधि केवल एक यादृच्छिक अवरोधन (नींद की कमी के कारण कोई प्रभाव नहीं) के साथ ढलान मॉडल की तुलना करने के लिए एक एफ आंकड़े देता है। स्पष्ट रूप से, यह मूल्य दोनों मॉडलों के तहत बहुत बड़ा था, लेकिन यह एमए के तहत आम तौर पर (लेकिन हमेशा नहीं) बड़ा था (मतलब 62 बनाम 55 का मतलब)।
  4. निश्चित प्रभावों के सहसंयोजक और विचरण भिन्न हैं।
  5. लगभग आधा समय, यह जानता है कि एमए सही है। M0 से MA की तुलना करने के लिए माध्यिका p- मान 0.0442 है। एक सार्थक सहसंबंध और 180 संतुलित टिप्पणियों की उपस्थिति के बावजूद, सही मॉडल केवल आधे समय के लिए चुना जाएगा।
  6. अनुमानित मूल्य दो मॉडल के तहत भिन्न होते हैं, लेकिन बहुत कम। 2.7 की एसडी के साथ, भविष्यवाणियों के बीच अंतर अंतर 0 है। अनुमानित मूल्यों की sd स्वयं 60.9 है

तो ऐसा क्यों होता है? @gung ने अनुमान लगाया, यथोचित रूप से, सहसंबंध की संभावना को शामिल करने में विफलता यादृच्छिक प्रभावों को असंबद्ध होने के लिए मजबूर करती है। शायद यह होना चाहिए; लेकिन इस कार्यान्वयन में, यादृच्छिक प्रभावों को सहसंबद्ध करने की अनुमति है, जिसका अर्थ है कि डेटा मॉडल की परवाह किए बिना सही दिशा में मापदंडों को खींचने में सक्षम है। गलत मॉडल की गलती संभावना में दिखाई देती है, यही कारण है कि आप (कभी-कभी) दो मॉडल को उस स्तर पर अलग कर सकते हैं। मिश्रित प्रभाव मॉडल मूल रूप से प्रत्येक विषय के लिए रेखीय प्रतिगमन फिटिंग है, जो प्रभावित करता है कि मॉडल को लगता है कि उन्हें होना चाहिए। गलत मॉडल आपको सही मॉडल के तहत प्राप्त होने वाले कम प्रशंसनीय मूल्यों के अनुकूल बनाता है। लेकिन पैरामीटर, दिन के अंत में, वास्तविक डेटा के लिए फिट द्वारा शासित होते हैं।

यहाँ छवि विवरण दर्ज करें

यहाँ मेरा कुछ हद तक क्लूनी कोड है। नींद अध्ययन डेटा को फिट करने और फिर समान मापदंडों के साथ एक नकली डेटा सेट बनाने का विचार था, लेकिन यादृच्छिक प्रभावों के लिए एक बड़ा सहसंबंध। वह डेटा सेट 1000 नमूनों का अनुकरण करने के लिए simulate.lmer () को खिलाया गया था, जिनमें से प्रत्येक दोनों तरीकों से फिट था। एक बार जब मैंने फिट की गई चीजों को जोड़ा था, तो मैं फिट की विभिन्न विशेषताओं को खींच सकता था और उनकी तुलना कर सकता था, टी-टेस्ट या जो भी हो।

    # Fit a model to the sleep study data, allowing non-zero correlation
fm01 <- lmer(Reaction ~ 1 + Days +(1+Days|Subject), data=sleepstudy, REML=FALSE)
# Now use this to build a similar data set with a correlation = 0.9
# Here is the covariance function for the random effects
# The variances come from the sleep study. The covariance is chosen to give a larger correlation
sigma.Subjects <- matrix(c(565.5,122,122,32.68),2,2) 
# Simulate 18 pairs of random effects
ranef.sim <- mvrnorm(18,mu=c(0,0),Sigma=sigma.Subjects)
# Pull out the pattern of days and subjects.
XXM <- model.frame(fm01) 
n <- nrow(XXM) # Sample size
# Add an intercept to the model matrix.
XX.f <- cbind(rep(1,n),XXM[,2])
# Calculate the fixed effects, using the parameters from the sleep study. 
yhat <- XX.f %*%  fixef(fm01 )
# Simulate a random intercept for each subject
intercept.r <- rep(ranef.sim[,1], each=10) 
# Now build the random slopes
slope.r <- XXM[,2]*rep(ranef.sim[,2],each=10)
# Add the slopes to the random intercepts and fixed effects
yhat2 <- yhat+intercept.r+slope.r
# And finally, add some noise, using the variance from the sleep study
y <- yhat2 + rnorm(n,mean=0,sd=sigma(fm01))
# Here is new "sleep study" data, with a stronger correlation.
new.data <- data.frame(Reaction=y,Days=XXM$Days,Subject=XXM$Subject)
# Fit the new data with its correct model
fm.sim <- lmer(Reaction ~ 1 + Days +(1+Days|Subject), data=new.data, REML=FALSE)
# Have a look at it
xyplot(Reaction ~ Days | Subject, data=new.data, layout=c(6,3), type=c("p","r"))
# Now simulate 1000 new data sets like new.data and fit each one
# using the right model and zero correlation model.
# For each simulation, output a list containing the fit from each and
# the ANOVA comparing them.
n.sim <- 1000
    sim.data <- vector(mode="list",)
    tempReaction <- simulate(fm.sim, nsim=n.sim)
    tempdata <- model.frame(fm.sim)
    for (i in 1:n.sim){
        tempdata$Reaction <- tempReaction[,i]
			output0 <- lmer(Reaction ~ 1 + Days +(1|Subject)+(0+Days|Subject), data = tempdata, REML=FALSE)
			output1 <- lmer(Reaction ~ 1 + Days +(Days|Subject), data=tempdata, REML=FALSE)
			temp <- anova(output0,output1)
			pval <- temp$`Pr(>Chisq)`[2]
        sim.data[[i]] <- list(model0=output0,modelA=output1, pvalue=pval)
    }

1
यह दिलचस्प काम है। धन्यवाद। मैं यह देखना चाहता हूं कि अगले दो दिनों में और क्या टिप्पणी आएगी और उत्तर स्वीकार करने से पहले अन्य मामलों में कैसे चीजें सामान्य होंगी। क्या आप अपने जवाब में प्रासंगिक आर कोड को भी शामिल करने पर विचार करेंगे और साथ ही आपके द्वारा उपयोग किए गए लार के संस्करण को भी निर्दिष्ट करेंगे? PROC MIXED में उन्हीं सिम्युलेटेड मामलों को फीड करना दिलचस्प होगा, यह देखने के लिए कि यह अनिर्दिष्ट यादृच्छिक प्रभाव सहसंबंध को कैसे संभालता है।
रुसलपिएरेस

1
@rpierce मैंने अनुरोध के अनुसार कोड नमूना जोड़ा है। मैंने मूल रूप से इसे LaTeX / Sweave में लिखा था, इसलिए कोड की पंक्तियाँ मेरी टिप्पणियों के साथ स्वयं से जुड़ी हुई थीं। मैंने lme4 के संस्करण 1.1-6 का उपयोग किया है, जो जून 2014 में वर्तमान संस्करण है।
प्लासीडिया

@ जब आप कहते हैं कि "मॉडल ए दूसरे पैराग्राफ में" की अनुमति देता है, तो क्या यह एमओ नहीं होना चाहिए?
nzcoops

मुझे लगता है कि पाठ सही है (मैंने इस प्रश्न के लिए जो किया वह सूत्र को थोड़ा सा
सूत्रित करने के

+6। उत्कृष्ट उत्तर, पुराने लेकिन योग्य प्रश्नों पर ध्यान देने के लिए धन्यवाद।
अमीबा का कहना है कि

4

प्लासीडिया पहले से ही sleepstudyडेटासेट के आधार पर सिम्युलेटेड डेटा का उपयोग करके पूरी तरह से उत्तर प्रदान कर चुका है । यहां एक और (कम कठोर) उत्तर है जो sleepstudyडेटा का उपयोग भी करता है ।

हम देखते हैं कि एक यादृच्छिक अवरोधक और यादृच्छिक ढलान के बीच अनुमानित सहसंबंध को प्रभावित कर सकता है ताकि यादृच्छिक भविष्यवक्ता चर "शिफ्टिंग" कर सके। मॉडल fm1और fm2नीचे से परिणाम देखें:

library(lmer)

#Fit Models
fm1 <- lmer(Reaction ~ Days + (Days | Subject), sleepstudy)
k <- 3 # Shift "Days" by an arbitrary amount
fm2 <- lmer(Reaction ~ I(Days + k) + (I(Days + k)| Subject), sleepstudy)

fm1 # Model Output
# Linear mixed model fit by REML ['lmerMod']
# Formula: Reaction ~ Days + (Days | Subject)
# Data: sleepstudy
# REML criterion at convergence: 1743.628
# Random effects:
#   Groups   Name        Std.Dev. Corr
# Subject  (Intercept) 24.740       
# Days         5.922   0.07
# Residual             25.592       
# Number of obs: 180, groups:  Subject, 18
# Fixed Effects:
#   (Intercept)         Days  
# 251.41        10.47

fm2 # Model Output
# Linear mixed model fit by REML ['lmerMod']
# Formula: Reaction ~ I(Days + k) + (I(Days + k) | Subject)
# Data: sleepstudy
# REML criterion at convergence: 1743.628
# Random effects:
#   Groups   Name        Std.Dev. Corr 
# Subject  (Intercept) 29.498        
# I(Days + k)  5.922   -0.55
# Residual             25.592        
# Number of obs: 180, groups:  Subject, 18
# Fixed Effects:
#   (Intercept)  I(Days + k)  
# 220.00        10.47

# Random effects from both models
cbind(ranef(fm1)$Subject,ranef(fm2)$Subject)
# (Intercept)        Days (Intercept) I(Days + k)
# 308   2.2585654   9.1989719 -25.3383538   9.1989727
# 309 -40.3985769  -8.6197032 -14.5394628  -8.6197043
# 310 -38.9602458  -5.4488799 -22.6136027  -5.4488807
# 330  23.6904985  -4.8143313  38.1334933  -4.8143315
# 331  22.2602027  -3.0698946  31.4698868  -3.0698946
# 332   9.0395259  -0.2721707   9.8560377  -0.2721706
# 333  16.8404311  -0.2236244  17.5113040  -0.2236243
# 334  -7.2325792   1.0745761 -10.4563076   1.0745761
# 335  -0.3336958 -10.7521591  31.9227854 -10.7521600
# 337  34.8903508   8.6282840   9.0054946   8.6282850
# 349 -25.2101104   1.1734142 -28.7303527   1.1734141
# 350 -13.0699567   6.6142050 -32.9125736   6.6142054
# 351   4.5778352  -3.0152572  13.6236077  -3.0152574
# 352  20.8635924   3.5360133  10.2555505   3.5360138
# 369   3.2754530   0.8722166   0.6588028   0.8722167
# 370 -25.6128694   4.8224646 -40.0802641   4.8224648
# 371   0.8070397  -0.9881551   3.7715053  -0.9881552
# 372  12.3145393   1.2840297   8.4624492   1.2840300

मॉडल आउटपुट से, हम देखते हैं कि यादृच्छिक विचरण सहसंबंध बदल गया है। हालांकि, ढलान (स्थिर और यादृच्छिक) वही रहे, जैसा कि अवशिष्ट विचरण का अनुमान था। शिफ्ट किए गए चर के जवाब में इंटरसेप्ट्स (निश्चित और यादृच्छिक) अनुमान बदल गए।

एलएमएम के लिए डी-सहसंबंधी रैंडम इंटरसेप्ट-स्लोप कोवरियस की चर्चा यहां के डॉ। जैक वीस के लेक्चर नोट्स में की गई है । वीस नोट करते हैं कि इस फैशन में विचरण सहसंबंध को कम करने से कभी-कभी अन्य चीजों के साथ मॉडल अभिसरण में मदद मिल सकती है।

उपरोक्त उदाहरण यादृच्छिक सहसंबंध (पैरामीटर "P5") बदलता है। आंशिक रूप से ओपी के क्यू 3 को संबोधित करते हुए, हम उपरोक्त आउटपुट से देखते हैं कि:

#   Parameter           Status
=================================
P1  Fixed Intercept     Affected
P2  Random Intercepts   Affected
P3  Fixed Slope         Not Affected
P4  Random Slopes       Not Affected
P5  Random Correlation  Affected

लंबे समय से खड़े प्रश्न के लिए संकेत जोड़ने के लिए धन्यवाद!
रुसलपिएरेस

नोट: जैक वीस के उत्कृष्ट व्याख्यान और कक्षा अभ्यास / नोट्स के सभी इस पोस्ट
theforestecologist

हमें प्रश्न में डेटा की व्याख्या कैसे करनी चाहिए? "सच्चा" सहसंबंध क्या है? पहले से या दूसरे मॉडल से एक? या BLUPs से?
User33268
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.