पहले स्तर पर, मुझे लगता है कि आप सभी जनसंख्या मूल्यों की ओर संकोचन की अनदेखी कर रहे हैं ; " प्रति-विषय ढलान और मिश्रित-प्रभाव मॉडल से अंतर आबादी अनुमानों की तुलना में करीब-करीब वर्ग वर्गों का अनुमान है। " [रेफ 1]। निम्नलिखित लिंक भी शायद मदद करेगा ( मेरे मिश्रित-मॉडल को देखने के लिए उचित विवरण क्या हैं? ), माइक लॉरेंस का जवाब देखें)।
इसके अलावा, मुझे लगता है कि आप अपने खिलौना उदाहरण में थोड़े से अशुभ हैं क्योंकि आपके पास एक पूरी तरह से संतुलित डिजाइन है जिसके कारण आप बिना किसी लापता मान के मामले में सटीक अनुमान लगा सकते हैं।
निम्नलिखित कोड को आज़माएं जिसमें समान प्रक्रिया है जिसमें कोई लापता मूल्य नहीं है:
cat <- as.factor(sample(1:5, n*k, replace=T) ) #This should be a bit unbalanced.
cat_i <- 1:k # intercept per kategorie
x <- rep(1:n, k)
sigma <- 0.2
alpha <- 0.001
y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma)
m1 <- lm(y ~ x)
m3 <- lme(y ~ x, random = ~ 1|cat, na.action = na.omit)
round(digits= 7,fixef(m3)) == round(digits=7, coef(m1)) #Not this time lad.
#(Intercept) x
# FALSE FALSE
अब कहां, क्योंकि आपका डिजाइन पूरी तरह से संतुलित नहीं है, आपके पास समान गुणांक नहीं है।
वास्तव में यदि आप अपने लापता मूल्य पैटर्न के साथ एक मूर्खतापूर्ण तरीके से खेलते हैं (उदाहरण के लिए:) y[ c(1:10, 100 + 1:10, 200 + 1:10, 300 + 1:10, 400 +1:10)] <- NA
तो आपका डिज़ाइन अभी भी पूरी तरह से संतुलित है आप फिर से वही गुणांक प्राप्त करेंगे।
require(nlme)
set.seed(128)
n <- 100
k <- 5
cat <- as.factor(rep(1:k, each = n))
cat_i <- 1:k # intercept per kategorie
x <- rep(1:n, k)
sigma <- 0.2
alpha <- 0.001
y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma)
plot(x, y)
# simulate missing data in a perfectly balanced way
y[ c(1:10, 100 + 1:10, 200 + 1:10, 300 + 1:10, 400 +1:10)] <- NA
m1 <- lm(y ~ x)
m3 <- lme(y ~ x, random = ~ 1|cat, na.action = na.omit)
round(digits=7,fixef(m3)) == round(digits=7, coef(m1)) #Look what happend now...
#(Intercept) x
# TRUE TRUE
आप अपने मूल प्रयोग के सही डिजाइन से थोड़ा गुमराह हैं। जब आपने NA को गैर-संतुलित में सम्मिलित किया तो आपने इस पैटर्न को बदल दिया कि व्यक्तिगत विषयों को एक-दूसरे से कितनी "ताकत" मिल सकती है।
संक्षेप में आप जो अंतर देखते हैं, वह संकोचन प्रभाव के कारण होता है और अधिक विशेष रूप से क्योंकि आप अपने मूल पूरी तरह से संतुलित डिजाइन को गैर-संतुलित-संतुलित चल मूल्यों के साथ विकृत कर देते हैं।
रेफ 1: डगलस बेट्स lme4: R के साथ मिश्रित-प्रभाव मॉडलिंग , पृष्ठ 71-72
m3
यह 0.0011713 है" के बजाय कहना चाहते हैंm2
।