आप भविष्यवाणी के लिए यादृच्छिक प्रभावों को शामिल किए बिना मिश्रित प्रभाव मॉडल से भविष्यवाणी क्यों करेंगे?


10

यह एक वैचारिक प्रश्न है, लेकिन जैसा कि मैं उपयोग करता हूं Rमैं संकुल को संदर्भित करूंगा R। यदि उद्देश्य भविष्यवाणी के प्रयोजनों के लिए एक रैखिक मॉडल को फिट करना है, और फिर भविष्यवाणियां करें जहां यादृच्छिक प्रभाव उपलब्ध नहीं हो सकते हैं, तो क्या मिश्रित प्रभाव मॉडल का उपयोग करने का कोई लाभ है, या इसके बजाय एक निश्चित प्रभाव मॉडल का उपयोग किया जाना चाहिए?

उदाहरण के लिए, यदि मेरे पास किसी अन्य जानकारी के साथ वजन बनाम ऊंचाई पर डेटा है, और निम्नलिखित मॉडल का उपयोग करके निर्माण करते हैं lme4, जहां विषय स्तरों ( ) के साथ एक कारक है :nn=nरोंपीएलरों

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

फिर मैं नई ऊंचाई और आयु डेटा का उपयोग करके मॉडल से वजन की भविष्यवाणी करने में सक्षम होना चाहता हूं। स्पष्ट रूप से मूल डेटा में उप-विषय विचरण मॉडल में कैप्चर किया गया है, लेकिन क्या भविष्यवाणी में इस जानकारी का उपयोग करना संभव है? मान लीजिए कि मेरे पास कुछ नई ऊंचाई और आयु के आंकड़े हैं, और वजन की भविष्यवाणी करना चाहते हैं, मैं इस प्रकार कर सकता हूं:

predict(mod1,newdata=newdf) # newdf columns for height, age, subject

यह उपयोग करेगा predict.merMod, और मैं ( newdfया ) या सेट में (नए) विषयों के लिए एक कॉलम शामिल कर सकता हूं re.form =~0। पहले उदाहरण में, यह स्पष्ट नहीं है कि मॉडल 'नए' विषय कारकों के साथ क्या करता है, और दूसरे उदाहरण में, मॉडल में कैद किए गए उप-विषय विचरण को केवल भविष्यवाणी के लिए अनदेखा (औसत से अधिक) किया जाएगा?

किसी भी मामले में यह मुझे प्रतीत होगा कि एक निश्चित प्रभाव रैखिक मॉडल अधिक उपयुक्त हो सकता है। दरअसल, अगर मेरी समझ सही है, तो एक निश्चित प्रभाव मॉडल को मिश्रित मॉडल के समान मूल्यों की भविष्यवाणी करनी चाहिए, अगर भविष्यवाणी में यादृच्छिक प्रभाव का उपयोग नहीं किया गया है। क्या ऐसा होना चाहिए? में Rवह नहीं है, उदाहरण के लिए:

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject

अलग परिणाम देता है:

mod2 <- lm(weight ~ height + age, data=df)

predict(mod2,newdata=newdf) # newdf columns for height, age



1
यह एक नए समूह के लिए भविष्यवाणी करना चाहता है, जो अनुमान में शामिल नहीं था
kjetil b halvorsen

हां, लेकिन उस उदाहरण में एक मिश्रित प्रभाव मॉडल के साथ परेशान क्यों? यह आपको क्या देता है कि एक निश्चित प्रभाव मॉडल नहीं है, अगर आप भविष्यवाणी में यादृच्छिक प्रभावों की उपेक्षा करते हैं?
आदिवासियों का काल

1
ठीक है, यह बेहतर अनुमानक दे सकता है, क्योंकि आपके पास त्रुटि संरचना का एक बेहतर (अधिक सही) मॉडल है
kjetil b halvorsen

जवाबों:


5

सरल विचार प्रयोग: आपने जन्म के बाद 5 शिशुओं का वजन और ऊंचाई मापी है। और आपने इसे दो साल बाद फिर से उसी शिशुओं से मापा। इस बीच आपने अपने बच्चे की बेटी का वजन और ऊंचाई लगभग हर हफ्ते मापी, जिसके परिणामस्वरूप उसके लिए 100 मूल्य जोड़े मिले। यदि आप एक मिश्रित प्रभाव मॉडल का उपयोग करते हैं, तो कोई समस्या नहीं है। यदि आप एक निश्चित प्रभाव मॉडल का उपयोग करते हैं, तो आप अपनी बेटी से माप पर अनुचित भार डालते हैं, एक बिंदु पर जहां आप लगभग उसी मॉडल को फिट करेंगे यदि आपने उससे केवल डेटा का उपयोग किया है। इसलिए, यह न केवल दोहराया उपायों या अनिश्चितता संरचनाओं के मॉडल के लिए, बल्कि भविष्यवाणी के लिए भी महत्वपूर्ण है। सामान्य तौर पर, आपको मिश्रित प्रभाव मॉडल और निश्चित प्रभाव मॉडल (उल्लंघन मान्यताओं के साथ) से समान भविष्यवाणियां नहीं मिलती हैं।

और मैं या तो newdf में (नए) विषयों के लिए एक कॉलम शामिल कर सकता हूं

आप उन विषयों के लिए भविष्यवाणी नहीं कर सकते जो मूल (प्रशिक्षण) डेटा का हिस्सा नहीं थे। फिर से एक सोचा प्रयोग: नया विषय मोटा है। मॉडल कैसे जान सकता है कि यह यादृच्छिक प्रभाव वितरण के ऊपरी छोर पर है?

क्या मॉडल में कैद किया गया उप-विषय विचलन केवल भविष्यवाणी के लिए अनदेखा (औसत से अधिक) होगा

अगर मैं आपको सही तरीके से समझता हूं तो हां। मॉडल आपको आबादी के लिए अपेक्षित मूल्य का अनुमान देता है (ध्यान दें कि यह अनुमान अभी भी मूल विषयों पर सशर्त है)।


1
स्पष्ट स्पष्टीकरण और उदाहरण के लिए धन्यवाद, यह सब समझ में आता है। हालाँकि, जहाँ आप राज्य करते हैं You can't predict for subjects which were not part of the original (training) data; re.form=~0आबादी से अपेक्षित सेटिंग और पूर्वानुमान नहीं है, जिससे मुझे ऐसा करने की अनुमति मिलती है? दी गई, मॉडल भविष्यवाणी में किसी भी विषय-विशेष की जानकारी का उपयोग नहीं कर रहा है, लेकिन क्या यह कहना उचित है कि मिश्रित प्रभाव मॉडल से अनुमान अभी भी उससे अधिक सटीक होगा, जो एक समान निश्चित प्रभाव मॉडल से जहां विषय-विशिष्ट भिन्नता थी अवहेलना करना?
आदिवासी

1
निर्धारित मॉडल लागू नहीं है क्योंकि इसकी मान्यताओं का उल्लंघन किया जाता है। आपको एक मॉडल का उपयोग करना चाहिए जिसमें एक निर्भरता संरचना शामिल है। re.form=~0आपको जनसंख्या-स्तर की भविष्यवाणी देता है, जो नए विषयों के लिए सबसे अच्छा है।
रोलैंड

glmmLasso पैकेज में आर का उपयोग करते समय मेरे पास एक ही सवाल था। पैकेज के लेखक, एंड्रियास ग्रोल ने कहा, ग्लम्मलैसो प्रक्रिया का उपयोग नए विषयों के लिए भविष्यवाणियां करने के लिए निश्चित प्रभावों और अगले समय अवधि में मौजूदा विषयों के लिए निर्धारित + यादृच्छिक प्रभावों का उपयोग करता है।
राबर्ट एफआर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.