नेस्टेड var-covar मॉडल में से किसी एक को चुनने के लिए REML (ML के बजाय) का उपयोग क्यों करना पड़ता है?


16

रैखिक मिश्रित मॉडल के यादृच्छिक प्रभावों पर मॉडल चयन पर विभिन्न विवरण REML का उपयोग करने का निर्देश देते हैं। मैं कुछ स्तर पर REML और ML के बीच अंतर जानता हूं, लेकिन मुझे समझ नहीं आता कि REML का उपयोग क्यों किया जाना चाहिए क्योंकि ML पक्षपाती है। उदाहरण के लिए, क्या एमएल का उपयोग करके सामान्य वितरण मॉडल के विचरण पैरामीटर पर LRT का संचालन करना गलत है (नीचे दिए गए कोड देखें)? मुझे समझ में नहीं आता कि मॉडल चयन में, एमएल होने की तुलना में निष्पक्ष होना अधिक महत्वपूर्ण क्यों है। मुझे लगता है कि अंतिम उत्तर "होना चाहिए क्योंकि मॉडल चयन REML के साथ एमएल के साथ बेहतर काम करता है" लेकिन मैं इससे थोड़ा अधिक जानना चाहूंगा। मैंने LRT और AIC की व्युत्पन्नियाँ नहीं पढ़ीं (मैं उन्हें अच्छी तरह से समझने के लिए पर्याप्त नहीं हूँ), लेकिन यदि REML को स्पष्ट रूप से व्युत्पन्न में उपयोग किया जाता है, तो बस यह जानना कि वास्तव में पर्याप्त होगा (उदाहरण के लिए)

n <- 100
a <- 10
b <- 1
alpha <- 5
beta <- 1
x <- runif(n,0,10)
y <- rnorm(n,a+b*x,alpha+beta*x)

loglik1 <- function(p,x,y){
   a <- p[1]
   b <- p[2]
   alpha <- p[3]
  -sum(dnorm(y,a+b*x,alpha,log=T))
}

loglik2 <- function(p,x,y){
   a <- p[1]
   b <- p[2]
   alpha <- p[3]
   beta <- p[4]
  -sum(dnorm(y,a+b*x,alpha+beta*x,log=T))
}

m1 <- optim(c(a,b,alpha),loglik1,x=x,y=y)$value
m2 <- optim(c(a,b,alpha,beta),loglik2,x=x,y=y)$value
D <- 2*(m1-m2)
1-pchisq(D,df=1) # p-value

1
REML और AIC के बारे में, आपको इस प्रश्न पर एक नज़र डालनी चाहिए ।
एल्विस

जवाबों:


13

एक बहुत ही कम जवाब: REML एक एमएल है, इसलिए REML पर आधारित परीक्षण वैसे भी सही है। चूंकि REML के साथ विचरण मापदंडों का अनुमान बेहतर है, इसलिए इसका उपयोग करना स्वाभाविक है।

REML एक ML क्यों है? पर विचार करें जैसे एक मॉडल के साथ एक्स आर एन × पी , , और तय प्रभाव के वेक्टर है , यादृच्छिक प्रभावों का वेक्टर है, और । निर्धारित प्रभावों को "हटाने" के लिए विरोधाभासों पर विचार करके प्रतिबंधित संभावना प्राप्त की जा सकती है । अधिक सटीक रूप से, , जैसे कि और

Y=Xβ+Zu+e
XRn×pZRn×qβRpuN(0,τIq)eN(0,σ2In)npCR(np)×nCX=0CC=Inp(अर्थात, के स्तंभ के स्तंभों द्वारा उत्पन्न अंतरिक्ष के लिए वेक्टर अंतरिक्ष ऑर्थोनल का एक अलौकिक आधार हैं ); तो साथ , और के लिए संभावना दिया प्रतिबंधित संभावना है।CXε ~ एन ( 0 , σ 2 मैं n - पी ) τ , σ 2 सी वाई
CY=CZu+ϵ
ϵN(0,σ2Inp)τ,σ2CY

अच्छा उत्तर (+1), क्या मैं यह कहना सही हूं कि मैट्रिक्स औसत के लिए मॉडल पर निर्भर है? तो आप केवल उसी C मैट्रिक्स के लिए REML अनुमानों की तुलना कर सकते हैं ? CC

हां, X पर निर्भर करता है (मैं इसे स्पष्ट करने के लिए एक मिनट में उत्तर को संपादित करूँगा), इसलिए आपके नेस्टेड मॉडल को निश्चित प्रभावों के साथ समान चर रखने की आवश्यकता है। CX
एल्विस

REML एक ML नहीं है ! एमएल विशिष्ट किसी दिए गए संभावना मॉडल के लिए परिभाषित किया गया है लेकिन REML निश्चित प्रभाव parameterization पर निर्भर है। डॉग बेट्स (साथ ही आर-एसआईजी-मिश्रित-मॉडल पर कई ऐतिहासिक वाले) की यह टिप्पणी देखें ।
लिवियस

1
@ लिवियस मुझे लगता है कि मेरा उत्तर स्पष्ट रूप से पर्याप्त है कि कैसे प्रतिबंधित संभावना का निर्माण किया जाता है। यह है एक संभावना है, यह सिर्फ संभावना मनाया दिया नहीं है मॉडल पहले दिखाया गया समीकरण में लिखा है, लेकिन अनुमान वेक्टर दी सी वाई मॉडल दूसरे में लिखा में दिखाया समीकरण। REML है एमएल इस संभावना से प्राप्त। YCY
एल्विस

2
मुझे लगता है कि इस मुद्दे पर DBates के विरोध की बात थोड़े है: यह एक अलग मॉडल है, और यह एक ऐसा मॉडल है, जिसके लिए तुलना करना मुश्किल है क्योंकि मॉडल और पैरामीटर मानकीकृत हैं। तो अगर आप कंप्यूटिंग नहीं कर रहे हैं अपने मूल मॉडल के लिए एमएल लेकिन एमएल के लिए एक अलग मॉडल अपने मूल मॉडल की एक विशेष parameterization से उत्पन्न होने वाली। इसलिए नेस्टेड फिक्स्ड-इफेक्ट्स स्ट्रक्चर वाले REML- फिटेड मॉडल अब नेस्टेड मॉडल (जैसा कि आप ऊपर बता चुके हैं) नहीं हैं। लेकिन एमएल-फिट मॉडल अभी भी नेस्टेड हैं, क्योंकि आप निर्दिष्ट मॉडल पर संभावना को अधिकतम कर रहे हैं।
Livius

9

संभावना अनुपात परीक्षण सांख्यिकीय परिकल्पना परीक्षण हैं जो दो संभावना के अनुपात पर आधारित हैं। उनके गुण अधिकतम संभावना अनुमान (MLE) से जुड़े हुए हैं। ( आम आदमी के संदर्भ में अधिकतम संभावना अनुमान (MLE) देखें )।

आपके मामले में (सवाल देखें) आप के लिए 'दो नेस्टेड वर-COVAR मॉडलों में' 'चुनें' चाहते हैं, चलो आप एक मॉडल जहां वर-COVAR है के बीच चयन करना चाहते हैं और एक मॉडल जहां वर-COVAR है Σ s जहां दूसरा वाला (सरल मॉडल) पहले वाले (सामान्य वाला) का एक विशेष मामला है। ΣgΣs

परीक्षण संभावना अनुपात पर आधारित है । कहाँ Σ रों और Σ जी रहे हैं अधिकतम संभावना अनुमानक।LR=2(log(Ls(Σ^s))log(Lg(Σ^g))Σ^sΣ^g

सांख्यिकीय , asymptotically (!) Is 2 हैLR χ2

अधिकतम संभावना आकलनकर्ताओं को सुसंगत माना जाता है, हालांकि, कई मामलों में वे पक्षपाती होते हैं। इस के लिए MLE आकलनकर्ता के लिए मामला है Σ रों और Σ जी , यह बताते हैं कि वे पक्षपाती रहे हैं हो सकता है। ऐसा इसलिए है क्योंकि वे डेटा से प्राप्त किए गए एक माध्य का उपयोग करके गणना की जाती हैं, जैसे कि इस 'अनुमानित औसत' के आसपास का प्रसार सही अर्थ के चारों ओर फैलने से छोटा होता है (देखें मानक विचलन की गणना करते समय n - 1 से विभाजित करने के लिए सहज व्याख्या ; )Σ^sΣ^gn1

आँकड़ों से ऊपर है χ 2 बड़े नमूनों में, यह सिर्फ तथ्य यह है कि, बड़े नमूनों में, की वजह से है Σ रों और Σ जी अपने सच्चे मूल्यों की ओर अभिसरित (MLE संगत कर रहे हैं)। (नोट: उपरोक्त लिंक में, बहुत बड़े नमूनों के लिए, n या by (n-1) से विभाजित करने से कोई फर्क नहीं पड़ेगा)LRχ2Σ^sΣ^g

छोटे नमूने लिए, MLE का अनुमान है Σ रों और Σ जी पक्षपातपूर्ण हो जाएगा और इसलिए का वितरण एल आर जाएगा विचलित से χ 2 , जबकि REML अनुमानों के लिए निष्पक्ष अनुमान दे देंगे Σ रों और Σ जी , इसलिए यदि आप का उपयोग करें , वर-COVAR मॉडल के चयन के लिए, REML तो अनुमान एल आर छोटे नमूनों के लिए बेहतर होगा इसका अनुमान लगाया जा χ 2Σ^sΣ^gLRχ2ΣsΣgLRχ2

ध्यान दें कि REML का उपयोग केवल मॉडल के नेस्टेड var-covar संरचनाओं के बीच एक ही माध्य के साथ चुनने के लिए किया जाना चाहिए, विभिन्न साधनों वाले मॉडल के लिए, REML उचित नहीं है, विभिन्न साधनों वाले मॉडल के लिए ML का उपयोग करना चाहिए।


ΣsΣgΣsΣgχ2

@ क्लिफ एबी, यह वही है जो उस विवरण के नीचे समझाया गया है और यही कारण है कि आपको REML का उपयोग करना होगा।

-4

मेरे पास एक उत्तर है जो सांख्यिकी के साथ सामान्य ज्ञान से अधिक है। यदि आप SAS में PROC MIXED को देखते हैं, तो अनुमान छह तरीकों से लगाया जा सकता है:

http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_mixed_sect008.htm

लेकिन REML डिफ़ॉल्ट है। क्यों? व्यावहारिक रूप से, व्यावहारिक अनुभव से पता चलता है कि इसमें सबसे अच्छा प्रदर्शन (जैसे, अभिसरण समस्याओं का सबसे छोटा मौका) है। इसलिए, यदि आपका लक्ष्य REML के साथ प्राप्त करने योग्य है, तो यह REML का उपयोग अन्य पांच तरीकों के विपरीत करने के लिए समझ में आता है।


2
इसका 'बड़े नमूना सिद्धांत' के साथ और MLE अनुमानों की पक्षपातपूर्णता के साथ है, मेरा उत्तर देखें।

1
"यह एसएएस में डिफ़ॉल्ट है" इस साइट पर "क्यों" सवाल का स्वीकार्य जवाब नहीं है।
पॉल

एसएएस द्वारा डिफ़ॉल्ट रूप से प्रदान किए गए मिश्रित मॉडल के लिए पी-वैल्यू आर के लिए lme4 लाइब्रेरी में डिजाइन द्वारा उपलब्ध नहीं हैं क्योंकि अविश्वास ( स्टेट.थेज़ .ch/pipermail/r-help/2006-May/094765.html )। तो "डिफ़ॉल्ट SAS" भी गलत हो सकता है।
टिम
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.