यादृच्छिक प्रभाव जोड़ना गुणांक अनुमानों को प्रभावित करता है


10

मुझे हमेशा सिखाया गया है कि यादृच्छिक प्रभाव केवल विचरण (त्रुटि) को प्रभावित करते हैं, और यह निश्चित प्रभाव केवल माध्य को प्रभावित करते हैं। लेकिन मुझे एक उदाहरण मिला है जहाँ यादृच्छिक प्रभाव का मतलब भी होता है - गुणांक का अनुमान:

require(nlme)
set.seed(128)
n <- 100
k <- 5
cat <- as.factor(rep(1:k, each = n))
cat_i <- 1:k # intercept per kategorie
x <- rep(1:n, k)
sigma <- 0.2
alpha <- 0.001
y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma)
plot(x, y)

# simulate missing data
y[c(1:(n/2), (n*k-n/2):(n*k))] <- NA

m1 <- lm(y ~ x)
summary(m1)

m2 <- lm(y ~ cat + x)
summary(m2)

m3 <- lme(y ~ x, random = ~ 1|cat, na.action = na.omit)
summary(m3)

आप देख सकते हैं कि xमॉडल से अनुमानित गुणांक m1-0.013780 है, जबकि मॉडल से m3यह 0.0011713 है - दोनों शून्य से काफी अलग हैं।

ध्यान दें कि जब मैं लापता डेटा का अनुकरण करने वाली रेखा को हटाता हूं, तो परिणाम समान होते हैं (यह पूर्ण मैट्रिक्स है)।

ऐसा क्यों है?

पुनश्च: कृपया ध्यान दें कि मैं एक पेशेवर सांख्यिकीविद् नहीं हूं, इसलिए यदि आप बहुत सारे गणित के साथ जवाब देने वाले हैं तो कृपया डमी के लिए कुछ सरल सारांश भी बनाएं :-)


मुझे लगता है कि आप "मॉडल से m3यह 0.0011713 है" के बजाय कहना चाहते हैं m2
us --r11852

मुझे क्षमा करें @ user11852, हाँ आप सही हैं, धन्यवाद। (बीटीडब्लू, इसके लिए m2भी मान्य है (जो एक और प्रश्न का विषय है )।
उत्सुक

जवाबों:


11

"मुझे हमेशा सिखाया गया है कि यादृच्छिक प्रभाव केवल विचरण (त्रुटि) को प्रभावित करते हैं, और निश्चित प्रभाव केवल माध्य को प्रभावित करते हैं।"

जैसा कि आपने खोजा है, यह केवल संतुलित, पूर्ण (यानी, कोई लापता डेटा नहीं) डेटासेट के लिए सही है, जिसमें कोई निरंतर भविष्यवाणियां नहीं हैं। दूसरे शब्दों में, शास्त्रीय एनोवा ग्रंथों में चर्चा किए गए डेटा / मॉडल के प्रकार के लिए। इन आदर्श परिस्थितियों में, निश्चित प्रभाव और यादृच्छिक प्रभावों को एक दूसरे से स्वतंत्र होने का अनुमान लगाया जा सकता है।

जब ये स्थितियां पकड़ में नहीं आती हैं (जैसा कि वे बहुत बार "वास्तविक दुनिया" में नहीं होती हैं), निश्चित और यादृच्छिक प्रभाव स्वतंत्र नहीं होते हैं। एक दिलचस्प बात के रूप में, यही कारण है कि "आधुनिक" मिश्रित मॉडल का अनुमान पुनरावृत्ति अनुकूलन विधियों का उपयोग करके लगाया जाता है, बल्कि मैट्रिक्स मिश्रित बीजगणित के साथ थोड़ा हल किया जा रहा है जैसा कि शास्त्रीय मिश्रित एनोवा मामले में: निश्चित प्रभावों का अनुमान लगाने के लिए, हमें करना होगा यादृच्छिक प्रभावों को जानते हैं, लेकिन यादृच्छिक प्रभावों का अनुमान लगाने के लिए, हमें निश्चित प्रभावों को जानना होगा! वर्तमान प्रश्न के लिए अधिक प्रासंगिक, इसका मतलब यह भी है कि जब डेटा असंतुलित / अपूर्ण और / या मॉडल में निरंतर भविष्यवाणियां होती हैं, तो मिश्रित मॉडल के यादृच्छिक-प्रभाव संरचना को समायोजित करने से मॉडल के निश्चित भाग के अनुमानों में बदलाव हो सकता है। , और इसके विपरीत।

2016-07-05 को संपादित करें। टिप्पणियों से: " क्या आप विस्तृत भविष्यवाणी कर सकते हैं या इस बात पर प्रशस्ति पत्र प्रदान कर सकते हैं कि निरंतर भविष्यवक्ता मॉडल के निर्धारित भाग के अनुमानों को क्यों प्रभावित करेंगे? "

मॉडल के निश्चित भाग के लिए अनुमान मॉडल के यादृच्छिक भाग के लिए अनुमानों पर निर्भर करेगा - अर्थात, अनुमानित विचरण घटक - यदि (लेकिन न केवल यदि) तो भविष्यवाणियों का विचलन क्लस्टर के पार भिन्न होता है। यदि लगभग कोई भी भविष्यवाणी सही है, तो यह निश्चित रूप से सत्य है कि कोई भी भविष्यवाणियां निरंतर हैं (कम से कम "वास्तविक दुनिया" डेटा में - सिद्धांत रूप में यह सच है कि यह सच नहीं होगा, जैसे कि एक निर्मित डेटासेट में)।


क्या आप विस्तृत भविष्यवाणी कर सकते हैं या इस बात पर प्रशस्ति पत्र प्रदान कर सकते हैं कि निरंतर भविष्यवक्ता मॉडल के निश्चित भाग के अनुमानों को क्यों प्रभावित करेंगे?
रोबिन.डाटड्राइवर्स

@ robin.datadrivers ठीक है मैंने इसके बारे में थोड़ा सा जोड़ा
जेक वेस्टफॉल

3

पहले स्तर पर, मुझे लगता है कि आप सभी जनसंख्या मूल्यों की ओर संकोचन की अनदेखी कर रहे हैं ; " प्रति-विषय ढलान और मिश्रित-प्रभाव मॉडल से अंतर आबादी अनुमानों की तुलना में करीब-करीब वर्ग वर्गों का अनुमान है। " [रेफ 1]। निम्नलिखित लिंक भी शायद मदद करेगा ( मेरे मिश्रित-मॉडल को देखने के लिए उचित विवरण क्या हैं? ), माइक लॉरेंस का जवाब देखें)।

इसके अलावा, मुझे लगता है कि आप अपने खिलौना उदाहरण में थोड़े से अशुभ हैं क्योंकि आपके पास एक पूरी तरह से संतुलित डिजाइन है जिसके कारण आप बिना किसी लापता मान के मामले में सटीक अनुमान लगा सकते हैं।

निम्नलिखित कोड को आज़माएं जिसमें समान प्रक्रिया है जिसमें कोई लापता मूल्य नहीं है:

 cat <- as.factor(sample(1:5, n*k, replace=T) ) #This should be a bit unbalanced.
 cat_i <- 1:k # intercept per kategorie
 x <- rep(1:n, k)
 sigma <- 0.2
 alpha <- 0.001
 y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma) 

 m1 <- lm(y ~ x)  
 m3 <- lme(y ~ x, random = ~ 1|cat, na.action = na.omit) 

 round(digits= 7,fixef(m3)) ==  round(digits=7, coef(m1)) #Not this time lad.
 #(Intercept)           x 
 #      FALSE       FALSE 

अब कहां, क्योंकि आपका डिजाइन पूरी तरह से संतुलित नहीं है, आपके पास समान गुणांक नहीं है।

वास्तव में यदि आप अपने लापता मूल्य पैटर्न के साथ एक मूर्खतापूर्ण तरीके से खेलते हैं (उदाहरण के लिए:) y[ c(1:10, 100 + 1:10, 200 + 1:10, 300 + 1:10, 400 +1:10)] <- NAतो आपका डिज़ाइन अभी भी पूरी तरह से संतुलित है आप फिर से वही गुणांक प्राप्त करेंगे।

 require(nlme)
 set.seed(128)
 n <- 100
 k <- 5
 cat <- as.factor(rep(1:k, each = n))
 cat_i <- 1:k # intercept per kategorie
 x <- rep(1:n, k)
 sigma <- 0.2
 alpha <- 0.001
 y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma)
 plot(x, y)

 # simulate missing data in a perfectly balanced way
 y[ c(1:10, 100 + 1:10, 200 + 1:10, 300 + 1:10, 400 +1:10)] <- NA

 m1 <- lm(y ~ x)  
 m3 <- lme(y ~ x, random = ~ 1|cat, na.action = na.omit) 

 round(digits=7,fixef(m3)) ==  round(digits=7, coef(m1)) #Look what happend now...
 #(Intercept)           x 
 #       TRUE        TRUE 

आप अपने मूल प्रयोग के सही डिजाइन से थोड़ा गुमराह हैं। जब आपने NA को गैर-संतुलित में सम्मिलित किया तो आपने इस पैटर्न को बदल दिया कि व्यक्तिगत विषयों को एक-दूसरे से कितनी "ताकत" मिल सकती है।

संक्षेप में आप जो अंतर देखते हैं, वह संकोचन प्रभाव के कारण होता है और अधिक विशेष रूप से क्योंकि आप अपने मूल पूरी तरह से संतुलित डिजाइन को गैर-संतुलित-संतुलित चल मूल्यों के साथ विकृत कर देते हैं।

रेफ 1: डगलस बेट्स lme4: R के साथ मिश्रित-प्रभाव मॉडलिंग , पृष्ठ 71-72

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.