यह एक वैचारिक प्रश्न है, लेकिन जैसा कि मैं उपयोग करता हूं R
मैं संकुल को संदर्भित करूंगा R
। यदि उद्देश्य भविष्यवाणी के प्रयोजनों के लिए एक रैखिक मॉडल को फिट करना है, और फिर भविष्यवाणियां करें जहां यादृच्छिक प्रभाव उपलब्ध नहीं हो सकते हैं, तो क्या मिश्रित प्रभाव मॉडल का उपयोग करने का कोई लाभ है, या इसके बजाय एक निश्चित प्रभाव मॉडल का उपयोग किया जाना चाहिए?
उदाहरण के लिए, यदि मेरे पास किसी अन्य जानकारी के साथ वजन बनाम ऊंचाई पर डेटा है, और निम्नलिखित मॉडल का उपयोग करके निर्माण करते हैं lme4
, जहां विषय स्तरों ( ) के साथ एक कारक है :
mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)
फिर मैं नई ऊंचाई और आयु डेटा का उपयोग करके मॉडल से वजन की भविष्यवाणी करने में सक्षम होना चाहता हूं। स्पष्ट रूप से मूल डेटा में उप-विषय विचरण मॉडल में कैप्चर किया गया है, लेकिन क्या भविष्यवाणी में इस जानकारी का उपयोग करना संभव है? मान लीजिए कि मेरे पास कुछ नई ऊंचाई और आयु के आंकड़े हैं, और वजन की भविष्यवाणी करना चाहते हैं, मैं इस प्रकार कर सकता हूं:
predict(mod1,newdata=newdf) # newdf columns for height, age, subject
यह उपयोग करेगा predict.merMod
, और मैं ( newdf
या ) या सेट में (नए) विषयों के लिए एक कॉलम शामिल कर सकता हूं re.form =~0
। पहले उदाहरण में, यह स्पष्ट नहीं है कि मॉडल 'नए' विषय कारकों के साथ क्या करता है, और दूसरे उदाहरण में, मॉडल में कैद किए गए उप-विषय विचरण को केवल भविष्यवाणी के लिए अनदेखा (औसत से अधिक) किया जाएगा?
किसी भी मामले में यह मुझे प्रतीत होगा कि एक निश्चित प्रभाव रैखिक मॉडल अधिक उपयुक्त हो सकता है। दरअसल, अगर मेरी समझ सही है, तो एक निश्चित प्रभाव मॉडल को मिश्रित मॉडल के समान मूल्यों की भविष्यवाणी करनी चाहिए, अगर भविष्यवाणी में यादृच्छिक प्रभाव का उपयोग नहीं किया गया है। क्या ऐसा होना चाहिए? में R
वह नहीं है, उदाहरण के लिए:
mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)
predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject
अलग परिणाम देता है:
mod2 <- lm(weight ~ height + age, data=df)
predict(mod2,newdata=newdf) # newdf columns for height, age