रैखिक मिश्रित मॉडल के यादृच्छिक प्रभावों पर मॉडल चयन पर विभिन्न विवरण REML का उपयोग करने का निर्देश देते हैं। मैं कुछ स्तर पर REML और ML के बीच अंतर जानता हूं, लेकिन मुझे समझ नहीं आता कि REML का उपयोग क्यों किया जाना चाहिए क्योंकि ML पक्षपाती है। उदाहरण के लिए, क्या एमएल का उपयोग करके सामान्य वितरण मॉडल के विचरण पैरामीटर पर LRT का संचालन करना गलत है (नीचे दिए गए कोड देखें)? मुझे समझ में नहीं आता कि मॉडल चयन में, एमएल होने की तुलना में निष्पक्ष होना अधिक महत्वपूर्ण क्यों है। मुझे लगता है कि अंतिम उत्तर "होना चाहिए क्योंकि मॉडल चयन REML के साथ एमएल के साथ बेहतर काम करता है" लेकिन मैं इससे थोड़ा अधिक जानना चाहूंगा। मैंने LRT और AIC की व्युत्पन्नियाँ नहीं पढ़ीं (मैं उन्हें अच्छी तरह से समझने के लिए पर्याप्त नहीं हूँ), लेकिन यदि REML को स्पष्ट रूप से व्युत्पन्न में उपयोग किया जाता है, तो बस यह जानना कि वास्तव में पर्याप्त होगा (उदाहरण के लिए)
n <- 100
a <- 10
b <- 1
alpha <- 5
beta <- 1
x <- runif(n,0,10)
y <- rnorm(n,a+b*x,alpha+beta*x)
loglik1 <- function(p,x,y){
a <- p[1]
b <- p[2]
alpha <- p[3]
-sum(dnorm(y,a+b*x,alpha,log=T))
}
loglik2 <- function(p,x,y){
a <- p[1]
b <- p[2]
alpha <- p[3]
beta <- p[4]
-sum(dnorm(y,a+b*x,alpha+beta*x,log=T))
}
m1 <- optim(c(a,b,alpha),loglik1,x=x,y=y)$value
m2 <- optim(c(a,b,alpha,beta),loglik2,x=x,y=y)$value
D <- 2*(m1-m2)
1-pchisq(D,df=1) # p-value