बीएलयूपी से जो मान प्राप्त होते हैं, वे उसी तरह अनुमानित नहीं होते हैं जैसे बीएलयूई निश्चित प्रभावों का अनुमान लगाते हैं; कन्वेंशन द्वारा BLUP को भविष्यवाणियों के रूप में संदर्भित किया जाता है । जब आप एक मिश्रित प्रभाव वाले मॉडल को फिट करते हैं, तो शुरू में जो अनुमान लगाया जाता है वह यादृच्छिक प्रभावों का माध्य और भिन्नता (और संभवतः सह-प्रवाह) होता है। किसी दिए गए अध्ययन इकाई (एक छात्र कहते हैं) के लिए यादृच्छिक प्रभाव बाद में अनुमानित माध्य और विचरण, और डेटा से गणना की जाती है। एक सरल रैखिक मॉडल में, माध्य का अनुमान है (जैसा कि अवशिष्ट विचरण है), लेकिन देखे गए स्कोर को उस और त्रुटि दोनों से बना माना जाता है, जो एक यादृच्छिक चर है। मिश्रित प्रभाव वाले मॉडल में, दी गई इकाई के लिए प्रभाव एक यादृच्छिक चर होता है (हालांकि कुछ अर्थों में यह पहले से ही महसूस किया जा चुका है)।
आप चाहें तो ऐसी इकाइयों को निश्चित प्रभावों के रूप में भी मान सकते हैं। उस स्थिति में, उस इकाई के मापदंडों को सामान्य रूप से अनुमानित किया जाता है। हालांकि ऐसे मामले में, जनसंख्या का मतलब (उदाहरण के लिए) जिसमें से इकाइयाँ खींची गई हैं, अनुमानित नहीं है।
इसके अलावा, यादृच्छिक प्रभावों के पीछे धारणा यह है कि उन्हें कुछ आबादी से यादृच्छिक पर नमूना लिया गया था, और यह वह जनसंख्या है जिसके बारे में आप परवाह करते हैं। निश्चित प्रभाव अंतर्निहित धारणा यह है कि आपने उन इकाइयों को उद्देश्यपूर्ण रूप से चुना है क्योंकि वे एकमात्र ऐसी इकाइयाँ हैं जिनकी आप परवाह करते हैं।
यदि आप चारों ओर घूमते हैं और मिश्रित प्रभाव वाले मॉडल को फिट करते हैं और उन्हीं प्रभावों की भविष्यवाणी करते हैं, तो वे अपने निश्चित प्रभाव अनुमानों के सापेक्ष जनसंख्या के प्रति 'सिकुड़' जाते हैं। आप इसे बायेसियन विश्लेषण के अनुरूप मान सकते हैं जहां अनुमानित औसत और भिन्नता एक सामान्य पूर्व निर्दिष्ट करती है और बीएलयूपी पोस्टीरियर के अर्थ की तरह होता है जो डेटा को पूर्व के साथ बेहतर रूप से संयोजित करने से आता है।
संकोचन की मात्रा कई कारकों के आधार पर भिन्न होती है। निर्धारित प्रभावों के अनुमानों से यादृच्छिक प्रभावों की भविष्यवाणी कितनी दूर होगी, इसका एक महत्वपूर्ण निर्धारण त्रुटि विचरण के यादृच्छिक प्रभावों के विचरण का अनुपात है। यहां R
5 'स्तर 2' इकाइयों के साथ सरलतम मामले के लिए एक त्वरित डेमो है जिसमें केवल साधन (इंटरसेप्ट्स) फिट हैं। (आप इसे कक्षाओं में छात्रों के लिए परीक्षण स्कोर के रूप में सोच सकते हैं।)
library(lme4) # we'll need to use this package
set.seed(1673) # this makes the example exactly reproducible
nj = 5; ni = 5; g = as.factor(rep(c(1:nj), each=ni))
##### model 1
pop.mean = 16; sigma.g = 1; sigma.e = 5
r.eff1 = rnorm(nj, mean=0, sd=sigma.g)
error = rnorm(nj*ni, mean=0, sd=sigma.e)
y = pop.mean + rep(r.eff1, each=ni) + error
re.mod1 = lmer(y~(1|g))
fe.mod1 = lm(y~0+g)
df1 = data.frame(fe1=coef(fe.mod1), re1=coef(re.mod1)$g)
##### model 2
pop.mean = 16; sigma.g = 5; sigma.e = 5
r.eff2 = rnorm(nj, mean=0, sd=sigma.g)
error = rnorm(nj*ni, mean=0, sd=sigma.e)
y = pop.mean + rep(r.eff2, each=ni) + error
re.mod2 = lmer(y~(1|g))
fe.mod2 = lm(y~0+g)
df2 = data.frame(fe2=coef(fe.mod2), re2=coef(re.mod2)$g)
##### model 3
pop.mean = 16; sigma.g = 5; sigma.e = 1
r.eff3 = rnorm(nj, mean=0, sd=sigma.g)
error = rnorm(nj*ni, mean=0, sd=sigma.e)
y = pop.mean + rep(r.eff3, each=ni) + error
re.mod3 = lmer(y~(1|g))
fe.mod3 = lm(y~0+g)
df3 = data.frame(fe3=coef(fe.mod3), re3=coef(re.mod3)$g)
तो त्रुटि विचरण के लिए यादृच्छिक प्रभावों के विचरण का अनुपात 1/5 के लिए model 1
, 5/5 के लिए model 2
, और 5/1 के लिए है model 3
। ध्यान दें कि मैंने इस्तेमाल किया स्तर का मतलब है कि निश्चित प्रभाव मॉडल के लिए कोडिंग। अब हम जांच कर सकते हैं कि अनुमानित निश्चित प्रभाव और पूर्वानुमानित यादृच्छिक प्रभाव इन तीन परिदृश्यों के लिए कैसे तुलना करते हैं।
df1
# fe1 re1
# g1 17.88528 15.9897
# g2 18.38737 15.9897
# g3 14.85108 15.9897
# g4 14.92801 15.9897
# g5 13.89675 15.9897
df2
# fe2 re2
# g1 10.979130 11.32997
# g2 13.002723 13.14321
# g3 26.118189 24.89537
# g4 12.109896 12.34319
# g5 9.561495 10.05969
df3
# fe3 re3
# g1 13.08629 13.19965
# g2 16.36932 16.31164
# g3 17.60149 17.47962
# g4 15.51098 15.49802
# g5 13.74309 13.82224
यादृच्छिक प्रभाव भविष्यवाणियों के साथ समाप्त होने का एक और तरीका जो निश्चित प्रभाव अनुमानों के करीब है, जब आपके पास अधिक डेटा है। हम model 1
उपर्युक्त से तुलना कर सकते हैं , इसके कम अनुपात के रैंडम इफ़ेक्ट्स वेरिएशन से लेकर एरर वेरिएशन तक, model 1b
उसी अनुपात के साथ एक वर्जन ( ) में, लेकिन बहुत अधिक डेटा (नोटिस की ni = 500
बजाय ni = 5
)।
##### model 1b
nj = 5; ni = 500; g = as.factor(rep(c(1:nj), each=ni))
pop.mean = 16; sigma.g = 1; sigma.e = 5
r.eff1b = rnorm(nj, mean=0, sd=sigma.g)
error = rnorm(nj*ni, mean=0, sd=sigma.e)
y = pop.mean + rep(r.eff1b, each=ni) + error
re.mod1b = lmer(y~(1|g))
fe.mod1b = lm(y~0+g)
df1b = data.frame(fe1b=coef(fe.mod1b), re1b=coef(re.mod1b)$g)
यहाँ प्रभाव हैं:
df1
# fe1 re1
# g1 17.88528 15.9897
# g2 18.38737 15.9897
# g3 14.85108 15.9897
# g4 14.92801 15.9897
# g5 13.89675 15.9897
df1b
# fe1b re1b
# g1 15.29064 15.29543
# g2 14.05557 14.08403
# g3 13.97053 14.00061
# g4 16.94697 16.92004
# g5 17.44085 17.40445
कुछ हद तक संबंधित नोट पर, डौग बेट्स (आर पैकेज lme4 के लेखक) को "BLUP" शब्द पसंद नहीं है और इसके बजाय "सशर्त मोड" का उपयोग करता है (अपने ड्राफ्ट lme4 पुस्तक पीडीएफ के पीपी 22-23 देखें )। विशेष रूप से, वह खंड 1.6 में बताते हैं कि "BLUP" का उपयोग केवल रैखिक मिश्रित-प्रभाव वाले मॉडल के लिए किया जा सकता है ।