एक यादृच्छिक ढलान प्रभाव की शुरूआत ने ढलान के एसई को क्यों बढ़ाया?


9

मैं व्यक्तियों के विशेष समूह के लिए चर लॉग ऑन पर वर्ष के प्रभाव का विश्लेषण करने की कोशिश कर रहा हूं (मेरे पास 3 समूह हैं)। सबसे सरल मॉडल:

> fix1 = lm(logInd ~ 0 + Group + Year:Group, data = mydata)
> summary(fix1)

Call:
lm(formula = logInd ~ 0 + Group + Year:Group, data = mydata)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.5835 -0.3543 -0.0024  0.3944  4.7294 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
Group1       4.6395740  0.0466217  99.515  < 2e-16 ***
Group2       4.8094268  0.0534118  90.044  < 2e-16 ***
Group3       4.5607287  0.0561066  81.287  < 2e-16 ***
Group1:Year -0.0084165  0.0027144  -3.101  0.00195 ** 
Group2:Year  0.0032369  0.0031098   1.041  0.29802    
Group3:Year  0.0006081  0.0032666   0.186  0.85235    
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.7926 on 2981 degrees of freedom
Multiple R-squared: 0.9717,     Adjusted R-squared: 0.9716 
F-statistic: 1.705e+04 on 6 and 2981 DF,  p-value: < 2.2e-16 

हम देख सकते हैं कि ग्रुप 1 में काफी गिरावट आ रही है, ग्रुप 2 और 3 में वृद्धि हो रही है लेकिन उल्लेखनीय रूप से ऐसा नहीं है।

स्पष्ट रूप से व्यक्ति को यादृच्छिक प्रभाव होना चाहिए, इसलिए मैं प्रत्येक व्यक्ति के लिए यादृच्छिक अवरोधन प्रभाव पेश करता हूं:

> mix1a = lmer(logInd ~ 0 + Group + Year:Group + (1|Individual), data = mydata)
> summary(mix1a)
Linear mixed model fit by REML 
Formula: logInd ~ 0 + Group + Year:Group + (1 | Individual) 
   Data: mydata 
  AIC  BIC logLik deviance REMLdev
 4727 4775  -2356     4671    4711
Random effects:
 Groups     Name        Variance Std.Dev.
 Individual (Intercept) 0.39357  0.62735 
 Residual               0.24532  0.49530 
Number of obs: 2987, groups: Individual, 103

Fixed effects:
              Estimate Std. Error t value
Group1       4.6395740  0.1010868   45.90
Group2       4.8094268  0.1158095   41.53
Group3       4.5607287  0.1216522   37.49
Group1:Year -0.0084165  0.0016963   -4.96
Group2:Year  0.0032369  0.0019433    1.67
Group3:Year  0.0006081  0.0020414    0.30

Correlation of Fixed Effects:
            Group1 Group2 Group3 Grp1:Y Grp2:Y
Group2       0.000                            
Group3       0.000  0.000                     
Group1:Year -0.252  0.000  0.000              
Group2:Year  0.000 -0.252  0.000  0.000       
Group3:Year  0.000  0.000 -0.252  0.000  0.000

इसका एक अपेक्षित प्रभाव था - ढलानों का एसई (गुणांक Group1-3: वर्ष) अब कम हो गया है और अवशिष्ट एसई भी कम है।

व्यक्ति ढलान में भी भिन्न होते हैं इसलिए मैंने यादृच्छिक ढलान प्रभाव भी पेश किया:

> mix1c = lmer(logInd ~ 0 + Group + Year:Group + (1 + Year|Individual), data = mydata)
> summary(mix1c)
Linear mixed model fit by REML 
Formula: logInd ~ 0 + Group + Year:Group + (1 + Year | Individual) 
   Data: mydata 
  AIC  BIC logLik deviance REMLdev
 2941 3001  -1461     2885    2921
Random effects:
 Groups     Name        Variance  Std.Dev. Corr   
 Individual (Intercept) 0.1054790 0.324775        
            Year        0.0017447 0.041769 -0.246 
 Residual               0.1223920 0.349846        
Number of obs: 2987, groups: Individual, 103

Fixed effects:
              Estimate Std. Error t value
Group1       4.6395740  0.0541746   85.64
Group2       4.8094268  0.0620648   77.49
Group3       4.5607287  0.0651960   69.95
Group1:Year -0.0084165  0.0065557   -1.28
Group2:Year  0.0032369  0.0075105    0.43
Group3:Year  0.0006081  0.0078894    0.08

Correlation of Fixed Effects:
            Group1 Group2 Group3 Grp1:Y Grp2:Y
Group2       0.000                            
Group3       0.000  0.000                     
Group1:Year -0.285  0.000  0.000              
Group2:Year  0.000 -0.285  0.000  0.000       
Group3:Year  0.000  0.000 -0.285  0.000  0.000

लेकिन अब, उम्मीद के विपरीत, ढलानों के एसई (गुणांक Group1-3: वर्ष) अब बहुत अधिक हैं, यहां तक ​​कि बिना किसी यादृच्छिक प्रभाव के भी अधिक है!

यह कैसे हो सकता है? मैं उम्मीद करूंगा कि यादृच्छिक प्रभाव अस्पष्टीकृत परिवर्तनशीलता को "खाएगा" और अनुमान की "वृद्धि" करेगा!

हालांकि, अवशिष्ट एसई अपेक्षित रूप से व्यवहार करता है - यह यादृच्छिक अवरोधन मॉडल की तुलना में कम है।

यहां डेटा की जरूरत है।

संपादित करें

अब मुझे आश्चर्यजनक तथ्य का एहसास हुआ। अगर मैं प्रत्येक व्यक्ति के लिए रैखिक प्रतिगमन अलग-अलग करता हूं और फिर परिणामी ढलानों पर एनोवा चलाता हूं , तो मुझे यादृच्छिक ढलान मॉडल के समान परिणाम मिलता है! जानोगे क्यों?

indivSlope = c()
for (indiv in 1:103) {
    mod1 = lm(logInd ~ Year, data = mydata[mydata$Individual == indiv,])
    indivSlope[indiv] = coef(mod1)['Year']
}

indivGroup = unique(mydata[,c("Individual", "Group")])[,"Group"]


anova1 = lm(indivSlope ~ 0 + indivGroup)
summary(anova1)

Call:
lm(formula = indivSlope ~ 0 + indivGroup)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.176288 -0.016502  0.004692  0.020316  0.153086 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)
indivGroup1 -0.0084165  0.0065555  -1.284    0.202
indivGroup2  0.0032369  0.0075103   0.431    0.667
indivGroup3  0.0006081  0.0078892   0.077    0.939

Residual standard error: 0.04248 on 100 degrees of freedom
Multiple R-squared: 0.01807,    Adjusted R-squared: -0.01139 
F-statistic: 0.6133 on 3 and 100 DF,  p-value: 0.6079 

यहां डेटा की जरूरत है।


यदि आप एक वर्ष के लिए जा रहे हैं, तो आपको एक वर्ष निश्चित प्रभाव की आवश्यकता होती है: समूह सहभागिता निश्चित प्रभाव। सामान्य तौर पर, आप मुख्य प्रभावों को शामिल किए बिना एक इंटरैक्शन शब्द शामिल नहीं कर सकते। क्या आपको वास्तव में लगता है कि वर्ष प्रभाव के लिए कोई निश्चित घटक नहीं है? और, यदि हां, तो एक निश्चित वर्ष कैसे हो सकता है: समूह सहभागिता?
जॉन

और, कोई निश्चित अवरोधन क्यों नहीं? आपके पास फिक्स्ड और रैंडम दोनों हो सकते हैं।
जॉन

@, यह मॉडल पूरी तरह से मान्य है। यह केवल श्रेणीबद्ध चर के वांछित कोडिंग का एक मुद्दा है। इस तरह से समूह के अवरोधन है , और समूह के भीतर ढलान है । यदि वर्ष का मुख्य प्रभाव और अवरोधन शामिल हैं, तो अनुमान समूह और समूह 1 के अवरोधन के अंतर होंगे , और इसी तरह ढलान के साथ। GroupiiGroupi:Yearii
ऐको जूल

@ जॉन, यह मेरे सवाल का विषय है, फिर भी: मेरा विश्वास करो, यह ठीक है, मैंने इसके साथ बहुत सारे प्रयोग किए। मेरा पहला एलएम मॉडल पूरी तरह से बराबर है logInd ~ Year*Group, केवल गुणांक अलग-अलग आकार में हैं, अधिक कुछ नहीं। आपके स्वाद पर निर्भर करता है और आप किस गुणांक के आकार को पसंद करते हैं, इससे ज्यादा कुछ नहीं। मेरे 1 मॉडल में "वर्ष मुख्य प्रभाव" का कोई बहिष्करण नहीं है जैसा कि आप लिखते हैं ... logInd ~ Year*Groupबिल्कुल वैसा ही है, Yearगुणांक तब मुख्य प्रभाव नहीं है, लेकिन समूह 1: वर्ष।
जिज्ञासु

ओके, नीट, ने 0 इंटरसेप्ट और ग्रुप दोनों को श्रेणीबद्ध नहीं माना था ।
जॉन

जवाबों:


11

मुझे लगता है कि समस्या आपकी अपेक्षाओं के साथ है :) ध्यान दें कि जब आपने प्रत्येक व्यक्ति के लिए एक यादृच्छिक अवरोधन जोड़ा था, तो अंतर की मानक त्रुटि बढ़ गई। चूंकि प्रत्येक व्यक्ति का अपना स्वयं का अवरोधन हो सकता है, इसलिए समूह औसत कम निश्चित है। यादृच्छिक ढलान के साथ भी यही हुआ है: आप अब एक सामान्य (भीतर-समूह) ढलान का अनुमान नहीं लगा रहे हैं, लेकिन अलग-अलग ढलान का औसत।

संपादित करें: एक बेहतर मॉडल अधिक सटीक अनुमान क्यों नहीं देता है?

चलो इसके बारे में दूसरे तरीके से सोचते हैं: प्रारंभिक मॉडल मानक त्रुटि को कम क्यों समझता है? यह उन टिप्पणियों की स्वतंत्रता को मानता है जो स्वतंत्र नहीं हैं। दूसरा मॉडल उस धारणा को शांत करता है (एक तरह से जो अंतर को प्रभावित करता है), और तीसरा इसे और आराम देता है।

EDIT 2: कई रोगी-विशिष्ट मॉडल के साथ संबंध

आपका अवलोकन एक ज्ञात संपत्ति है (और यदि आपके पास केवल दो वर्ष थे, तो यादृच्छिक प्रभाव मॉडल एक युग्मित टी-परीक्षण के बराबर होगा)। मुझे नहीं लगता कि मैं एक वास्तविक प्रमाण का प्रबंधन कर सकता हूं, लेकिन शायद दो मॉडल लिखने से रिश्ता स्पष्ट हो जाएगा। आइए समूहीकरण चर को अनदेखा करें, क्योंकि यह सिर्फ संकेतन को जटिल करेगा। मैं यादृच्छिक प्रभावों के लिए ग्रीक अक्षरों और निश्चित प्रभावों के लिए लैटिन अक्षरों का उपयोग करूंगा।

यादृच्छिक प्रभाव मॉडल है ( - विषय, - विषय के भीतर प्रतिकृति): जहां और ।ij

Yij=a+αi+(b+βi)xij+ϵij,
(αi,βi)N(0,Σ)ϵijN(0,σ2)

जब आप प्रत्येक विषय के लिए अलग मॉडल फिट करते हैं, तो जहां ।

Yij=ai+bixij+ϵij,
ϵijN(0,σi2)

[नोट: निम्नलिखित वास्तव में सिर्फ handwaving है:]

आप के साथ इन दो मॉडलों के बीच समानता का एक बहुत कुछ देख सकते हैं करने के लिए इसी और को । का औसत मेल खाता है , क्योंकि यादृच्छिक प्रभावों का औसत 0. है। यादृच्छिक अवरोधन और ढलान का असंबंधित सहसंबंध इस तथ्य की ओर जाता है कि मॉडल को अलग से फिट किया जा सकता है। मैं नहीं यकीन है कि कैसे अकेला हूँ विषय-विशेष के साथ इस धारणा meshes , लेकिन मुझे लगता है कि ग्रहण करेंगे अंतर को चुनता है।aia+αibib+βibibσσiαi


धन्यवाद Aniko। आप सही हैं, मेरी गणना इस बात की पुष्टि करती है, लेकिन मैं यह देखना चाहूंगा कि क्यों ... यह सहज-सहज लगता है। मैंने मॉडल में सुधार किया - यादृच्छिक प्रभावों को प्रस्तुत करके मैंने त्रुटि संरचना को बेहतर बताया। अवशिष्ट त्रुटि इसकी पुष्टि करती है - निम्न और निम्न है। इसलिए इन बेहतर, अधिक सटीक मॉडलों के साथ मैं अधिक सटीक ढलान की उम्मीद करूंगा ... मुझे पता है कि मैं कहीं न कहीं गलत हूं, कृपया मुझे इसे देखने में मदद करें।
जिज्ञासु

धन्यवाद Aniko, यह एक दिलचस्प बात है! मुझे केवल ढलानों में दिलचस्पी है (समूह *: वर्ष), यहां अवरोधन नहीं है .. इसलिए यादृच्छिक प्रभाव को पेश करने का मेरा पहला कदम आराम से है कि स्वतंत्रता धारणा और निम्न एसई की ओर ले जाती है .. (ढलान का ..) और फिर अगला कदम। शायद बहुत ज्यादा था (??) और इसके विपरीत (और भी बुरा एसई ..) .. शायद मुझे इसके बारे में सोचने की ज़रूरत है, धन्यवाद।
उत्सुक

अब मैं भी बहुत दिलचस्प तथ्य से चकित हूं - कृपया मेरा संपादन देखें। क्या आप जानते हैं कि ऐसा क्यों है?
उत्सुक

मुझे नहीं लगता कि स्वतंत्रता की धारणा बहुत अधिक शिथिल थी! के साथ शुरू करना गलत था।
ऐकौ

3
टॉमस, एक "सटीक" मॉडल का मतलब यह नहीं है कि अनुमान अधिक सटीक होंगे। एक चरम उदाहरण के रूप में, अपने पसंद का कोई भी डेटा-मुक्त मॉडल लें, जैसे कि सभी प्रतिक्रियाओं की भविष्यवाणी शून्य हो। यह मॉडल शून्य के अपने अनुमान में बिल्कुल निश्चित है। इसलिए यह उतना ही सटीक है जितना संभवतः कोई भी प्राप्त कर सकता है - लेकिन यह संभवतः जितना संभव हो उतना गलत है। एक मॉडल को फिट करने के लिए अधिक स्कोप दिया जाता है इसलिए आमतौर पर उन पैरामीटर्स को कम सटीकता के साथ फिट किया जाता है , अधिक नहीं। एक बेहतर मॉडल, क्योंकि यह एक खराब मॉडल द्वारा कब्जा नहीं की गई अनिश्चितता को निर्धारित कर सकता है, अक्सर बड़ी मानक त्रुटियां होती हैं।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.