एक सर्वश्रेष्ठ रैखिक निष्पक्ष प्रिडिक्टर (BLUP) से अनुमानित मूल्य एक सर्वश्रेष्ठ रैखिक निष्पक्ष अनुमानक (BLUE) से भिन्न क्यों हैं?


20

मैं समझता हूं कि उनके बीच का अंतर इस बात से संबंधित है कि क्या मॉडल में समूहीकरण चर एक निश्चित या यादृच्छिक प्रभाव के रूप में अनुमानित है, लेकिन यह मेरे लिए स्पष्ट नहीं है कि वे समान क्यों नहीं हैं (यदि वे समान नहीं हैं)।

मुझे विशेष रूप से दिलचस्पी है कि छोटे क्षेत्र के आकलन का उपयोग करते समय यह कैसे काम करता है, यदि यह प्रासंगिक है, लेकिन मुझे संदेह है कि प्रश्न निश्चित और यादृच्छिक प्रभावों के किसी भी आवेदन के लिए प्रासंगिक है।

जवाबों:


26

बीएलयूपी से जो मान प्राप्त होते हैं, वे उसी तरह अनुमानित नहीं होते हैं जैसे बीएलयूई निश्चित प्रभावों का अनुमान लगाते हैं; कन्वेंशन द्वारा BLUP को भविष्यवाणियों के रूप में संदर्भित किया जाता है । जब आप एक मिश्रित प्रभाव वाले मॉडल को फिट करते हैं, तो शुरू में जो अनुमान लगाया जाता है वह यादृच्छिक प्रभावों का माध्य और भिन्नता (और संभवतः सह-प्रवाह) होता है। किसी दिए गए अध्ययन इकाई (एक छात्र कहते हैं) के लिए यादृच्छिक प्रभाव बाद में अनुमानित माध्य और विचरण, और डेटा से गणना की जाती है। एक सरल रैखिक मॉडल में, माध्य का अनुमान है (जैसा कि अवशिष्ट विचरण है), लेकिन देखे गए स्कोर को उस और त्रुटि दोनों से बना माना जाता है, जो एक यादृच्छिक चर है। मिश्रित प्रभाव वाले मॉडल में, दी गई इकाई के लिए प्रभाव एक यादृच्छिक चर होता है (हालांकि कुछ अर्थों में यह पहले से ही महसूस किया जा चुका है)।

आप चाहें तो ऐसी इकाइयों को निश्चित प्रभावों के रूप में भी मान सकते हैं। उस स्थिति में, उस इकाई के मापदंडों को सामान्य रूप से अनुमानित किया जाता है। हालांकि ऐसे मामले में, जनसंख्या का मतलब (उदाहरण के लिए) जिसमें से इकाइयाँ खींची गई हैं, अनुमानित नहीं है।

इसके अलावा, यादृच्छिक प्रभावों के पीछे धारणा यह है कि उन्हें कुछ आबादी से यादृच्छिक पर नमूना लिया गया था, और यह वह जनसंख्या है जिसके बारे में आप परवाह करते हैं। निश्चित प्रभाव अंतर्निहित धारणा यह है कि आपने उन इकाइयों को उद्देश्यपूर्ण रूप से चुना है क्योंकि वे एकमात्र ऐसी इकाइयाँ हैं जिनकी आप परवाह करते हैं।

यदि आप चारों ओर घूमते हैं और मिश्रित प्रभाव वाले मॉडल को फिट करते हैं और उन्हीं प्रभावों की भविष्यवाणी करते हैं, तो वे अपने निश्चित प्रभाव अनुमानों के सापेक्ष जनसंख्या के प्रति 'सिकुड़' जाते हैं। आप इसे बायेसियन विश्लेषण के अनुरूप मान सकते हैं जहां अनुमानित औसत और भिन्नता एक सामान्य पूर्व निर्दिष्ट करती है और बीएलयूपी पोस्टीरियर के अर्थ की तरह होता है जो डेटा को पूर्व के साथ बेहतर रूप से संयोजित करने से आता है।

संकोचन की मात्रा कई कारकों के आधार पर भिन्न होती है। निर्धारित प्रभावों के अनुमानों से यादृच्छिक प्रभावों की भविष्यवाणी कितनी दूर होगी, इसका एक महत्वपूर्ण निर्धारण त्रुटि विचरण के यादृच्छिक प्रभावों के विचरण का अनुपात है। यहां R5 'स्तर 2' इकाइयों के साथ सरलतम मामले के लिए एक त्वरित डेमो है जिसमें केवल साधन (इंटरसेप्ट्स) फिट हैं। (आप इसे कक्षाओं में छात्रों के लिए परीक्षण स्कोर के रूप में सोच सकते हैं।)

library(lme4)   # we'll need to use this package
set.seed(1673)  # this makes the example exactly reproducible
nj = 5;    ni = 5;    g = as.factor(rep(c(1:nj), each=ni))

##### model 1
pop.mean = 16;    sigma.g = 1;    sigma.e = 5
r.eff1   = rnorm(nj,    mean=0, sd=sigma.g)
error    = rnorm(nj*ni, mean=0, sd=sigma.e)
y        = pop.mean + rep(r.eff1, each=ni) + error

re.mod1  = lmer(y~(1|g))
fe.mod1  = lm(y~0+g)
df1      = data.frame(fe1=coef(fe.mod1), re1=coef(re.mod1)$g)

##### model 2
pop.mean = 16;    sigma.g = 5;    sigma.e = 5
r.eff2   = rnorm(nj,    mean=0, sd=sigma.g)
error    = rnorm(nj*ni, mean=0, sd=sigma.e)
y        = pop.mean + rep(r.eff2, each=ni) + error

re.mod2  = lmer(y~(1|g))
fe.mod2  = lm(y~0+g)
df2      = data.frame(fe2=coef(fe.mod2), re2=coef(re.mod2)$g)

##### model 3
pop.mean = 16;    sigma.g = 5;    sigma.e = 1
r.eff3   = rnorm(nj,    mean=0, sd=sigma.g)
error    = rnorm(nj*ni, mean=0, sd=sigma.e)
y        = pop.mean + rep(r.eff3, each=ni) + error

re.mod3  = lmer(y~(1|g))
fe.mod3  = lm(y~0+g)
df3      = data.frame(fe3=coef(fe.mod3), re3=coef(re.mod3)$g)

तो त्रुटि विचरण के लिए यादृच्छिक प्रभावों के विचरण का अनुपात 1/5 के लिए model 1, 5/5 के लिए model 2, और 5/1 के लिए है model 3। ध्यान दें कि मैंने इस्तेमाल किया स्तर का मतलब है कि निश्चित प्रभाव मॉडल के लिए कोडिंग। अब हम जांच कर सकते हैं कि अनुमानित निश्चित प्रभाव और पूर्वानुमानित यादृच्छिक प्रभाव इन तीन परिदृश्यों के लिए कैसे तुलना करते हैं।

df1
#         fe1     re1
# g1 17.88528 15.9897
# g2 18.38737 15.9897
# g3 14.85108 15.9897
# g4 14.92801 15.9897
# g5 13.89675 15.9897

df2
#          fe2      re2
# g1 10.979130 11.32997
# g2 13.002723 13.14321
# g3 26.118189 24.89537
# g4 12.109896 12.34319
# g5  9.561495 10.05969

df3
#         fe3      re3
# g1 13.08629 13.19965
# g2 16.36932 16.31164
# g3 17.60149 17.47962
# g4 15.51098 15.49802
# g5 13.74309 13.82224

यादृच्छिक प्रभाव भविष्यवाणियों के साथ समाप्त होने का एक और तरीका जो निश्चित प्रभाव अनुमानों के करीब है, जब आपके पास अधिक डेटा है। हम model 1उपर्युक्त से तुलना कर सकते हैं , इसके कम अनुपात के रैंडम इफ़ेक्ट्स वेरिएशन से लेकर एरर वेरिएशन तक, model 1bउसी अनुपात के साथ एक वर्जन ( ) में, लेकिन बहुत अधिक डेटा (नोटिस की ni = 500बजाय ni = 5)।

##### model 1b
nj = 5;    ni = 500;    g = as.factor(rep(c(1:nj), each=ni))
pop.mean = 16;    sigma.g = 1;    sigma.e = 5
r.eff1b  = rnorm(nj,    mean=0, sd=sigma.g)
error    = rnorm(nj*ni, mean=0, sd=sigma.e)
y        = pop.mean + rep(r.eff1b, each=ni) + error

re.mod1b = lmer(y~(1|g))
fe.mod1b = lm(y~0+g)
df1b     = data.frame(fe1b=coef(fe.mod1b), re1b=coef(re.mod1b)$g)

यहाँ प्रभाव हैं:

df1
#         fe1     re1
# g1 17.88528 15.9897
# g2 18.38737 15.9897
# g3 14.85108 15.9897
# g4 14.92801 15.9897
# g5 13.89675 15.9897

df1b
#        fe1b     re1b
# g1 15.29064 15.29543
# g2 14.05557 14.08403
# g3 13.97053 14.00061
# g4 16.94697 16.92004
# g5 17.44085 17.40445

कुछ हद तक संबंधित नोट पर, डौग बेट्स (आर पैकेज lme4 के लेखक) को "BLUP" शब्द पसंद नहीं है और इसके बजाय "सशर्त मोड" का उपयोग करता है (अपने ड्राफ्ट lme4 पुस्तक पीडीएफ के पीपी 22-23 देखें )। विशेष रूप से, वह खंड 1.6 में बताते हैं कि "BLUP" का उपयोग केवल रैखिक मिश्रित-प्रभाव वाले मॉडल के लिए किया जा सकता है ।


3
+1। लेकिन मुझे यकीन नहीं है कि मैं "भविष्यवाणी" और "अनुमान लगाने" के बीच के शब्दावली भेद की पूरी तरह से सराहना करता हूं। तो एक वितरण पैरामीटर "अनुमानित" है, लेकिन एक अव्यक्त चर केवल "अनुमानित" हो सकता है? क्या मैं तब सही ढंग से समझ सकता हूं कि कारक विश्लेषण में कारक लोडिंग "अनुमानित" है, लेकिन कारक स्कोर "अनुमानित" हैं? इसके अलावा, मुझे यह उल्लेखनीय रूप से भ्रमित लगता है कि "सर्वश्रेष्ठ रैखिक निष्पक्ष भविष्यवक्ता" नामक कुछ वास्तव में एक पक्षपाती अनुमानक है (क्योंकि यह संकोचन को लागू करता है और इसलिए पक्षपाती होना चाहिए) यदि कोई इसे निश्चित प्रभावों का "अनुमानक" मानता है। ..
अमीबा का कहना है कि

@amoeba, वैसे भी "सर्वश्रेष्ठ" का क्या अर्थ है? सबसे अच्छा क्या? क्या यह डेटा के माध्य का सबसे अच्छा अनुमान है, या डेटा और पूर्व में मौजूद जानकारी का सबसे अच्छा संयोजन है? क्या बायेसियन सादृश्य आपकी मदद करता है?
गूँग - मोनिका

2
कम से कम यह स्पष्ट है कि "रेखीय" का क्या अर्थ है :-) गंभीरता से, हालांकि, मुझे "भविष्यफल" और "अनुमान" के बीच शब्दावली अंतर पर @whuber द्वारा यह बहुत उपयोगी उत्तर मिला है । मुझे लगता है कि इसने मेरे लिए शब्दावली को स्पष्ट कर दिया, लेकिन यहां तक ​​कि मेरी भावना को पुष्ट किया कि BLUP इसके नाम के बावजूद, एक अनुमानक है। [cont।]
अमीबा का कहना है कि मोनिका

2
@amoeba, हाँ यह सब उचित है। लेकिन मैं दोनों के लिए एक ही नाम का उपयोग नहीं करना चाहूंगा, क्योंकि आप कुछ अलग कर रहे हैं (यानी समीकरण अलग हैं) और यह नाम अलग होने के लिए उपयोगी है।
गूँग - मोनिका

1
@amoeba, मैंने पहले पैराग्राफ में उन शब्दों को deemphasize करने के लिए phrasing को ट्विक किया, ताकि "भविष्यवाणी" को अस्वीकार न किया जा सके, लेकिन भेद बनाए रखने के लिए। देखें कि क्या आपको लगता है कि मैंने सुई को पिरोया है या यदि इसे और स्पष्ट किया जाना चाहिए।
गूँज - मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.