अवलोकन के स्वतंत्र न होने पर अमान्य निष्कर्ष


13

मैंने प्राथमिक आँकड़ों में सीखा कि सामान्य रेखीय मॉडल के साथ, इनफ़ॉर्म्स वैध होने के लिए, टिप्पणियों को स्वतंत्र होना चाहिए। जब क्लस्टरिंग होती है, तो स्वतंत्रता को अमान्य निष्कासन के लिए अग्रणी नहीं रखा जा सकता है जब तक कि यह हिसाब न हो। मिश्रित मॉडल का उपयोग करके इस तरह के क्लस्टरिंग का एक तरीका है। मैं एक उदाहरण डेटासेट, सिम्युलेटेड या नहीं खोजना चाहूंगा, जो इसे स्पष्ट रूप से प्रदर्शित करता हो। मैंने क्लस्टर डेटा का विश्लेषण करने के लिए यूसीएलए साइट पर एक नमूना डेटासेट का उपयोग करने की कोशिश की

> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")

> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 740.3981    11.5522  64.092   <2e-16 ***
growth       -0.1027     0.2112  -0.486   0.6271    
emer         -5.4449     0.5395 -10.092   <2e-16 ***
yr_rnd      -51.0757    19.9136  -2.565   0.0108 * 


> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)

Fixed effects:
             Estimate Std. Error t value
(Intercept) 748.21841   12.00168   62.34
growth       -0.09791    0.20285   -0.48
emer         -5.64135    0.56470   -9.99
yr_rnd      -39.62702   18.53256   -2.14

जब तक मैं कुछ याद नहीं कर रहा हूं, ये परिणाम पर्याप्त हैं कि मुझे नहीं लगता कि इससे आउटपुट lm()अमान्य है। मैंने कुछ अन्य उदाहरणों को देखा है (उदाहरण के लिए ब्रिस्टल यूनिवर्सिटी सेंटर फॉर मल्टीलेवल मॉडलिंग से 5.2 ) और पाया कि मानक त्रुटियां भी बहुत भिन्न नहीं हैं (मैं मिश्रित मॉडल से खुद को यादृच्छिक प्रभावों में दिलचस्पी नहीं रखता हूं, लेकिन यह ध्यान देने योग्य है मिश्रित मॉडल आउटपुट से आईसीसी 0.42 है)।

इसलिए, मेरे सवाल 1) हैं कि क्लस्टरिंग होने पर मानक त्रुटियों को किन स्थितियों में अलग-अलग रूप से चिह्नित किया जाएगा, और 2) कोई व्यक्ति इस तरह के डेटासेट (नकली या नहीं) का एक उदाहरण प्रदान कर सकता है।


क्या आप इस बात पर विस्तार कर सकते हैं कि क्लस्टरिंग का क्या मतलब है?
bayerj

क्लस्टरिंग से @ बेयरेज का अर्थ है, जब एक-दूसरे के समान दिखने वाली टिप्पणियों को किसी प्रकार की इकाई के भीतर एक साथ रखा जाता है, उदाहरण के लिए 10 रक्त दबाव माप 50 अविवेक पर लिया जाता है।
जो राजा

जवाबों:


11

सबसे पहले, आप सही हैं यह डेटासेट शायद मिश्रित मॉडल को समझने के लिए सबसे अच्छा नहीं है। लेकिन पहले क्यों देखें

require(foreign)
dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")

length(dt$dnum)          # 310
length(unique(dt$dnum))  # 187 
sum(table(dt$dnum)==1)   # 132

आप देखते हैं कि आपके पास 310 अवलोकन और 187 समूह हैं, जिनमें से 132 में केवल एक अवलोकन है। इसका मतलब यह नहीं है कि हमें बहु-स्तरीय मॉडलिंग का उपयोग नहीं करना चाहिए, लेकिन जैसा कि आपने कहा था कि हमें बहुत अधिक परिणाम नहीं मिलेंगे।

बहु-स्तरीय मॉडलिंग प्रेरणा

बहु-स्तरीय मॉडलिंग का उपयोग करने की प्रेरणा डिज़ाइन से ही शुरू होती है, न कि केवल किए गए विश्लेषण के परिणामों से। बेशक सबसे आम उदाहरण व्यक्तियों से कई टिप्पणियां ले रहा है, लेकिन चीजों को अधिक आसानी से समझने की स्थिति देने के लिए और अधिक चरम बनाने के लिए, दुनिया भर के विभिन्न देशों के व्यक्तियों से उनकी आय के बारे में पूछने के बारे में सोचें। तो सबसे अच्छा उदाहरण वे हैं जिनमें बहुत अधिक विविधता है, क्योंकि क्लस्टर जो परीक्षा परिणाम में सजातीय हैं लेने से बहुत फर्क नहीं पड़ेगा।

उदाहरण

तो, चलो चीजों को स्पष्ट करने के लिए कुछ डेटा का अनुकरण करते हैं, सिमुलेशन बेहतर काम करता है क्योंकि वास्तविक जीवन डेटा स्पष्ट नहीं है। कल्पना कीजिए कि आप देशों को लेते हैं और आप प्रत्येक देश के व्यक्तियों से उनकी आय और कुछ और चीजों के बारे में पूछते हैं , जिनका गुणांक साथ आय में सकारात्मक प्रभाव पड़ता है ।10100yx0.5

set.seed(1)
I <- 100
J <- 10
n <- I*J
i <- rep(1:I, each=J)
j <- rep(1:J,I)
x <- rnorm(n,mean=0, sd=1)
beta0  <- 1000
beta1  <- 0.5
sigma2 <- 1
tau2   <- 200
u <- rep(rnorm(I,mean=0,sd=sqrt(tau2)),each=J)
y <- beta0 + beta1*x + u + rnorm(n,mean=0, sd=sqrt(sigma2))

तो, एक रैखिक मॉडल आप चल रहे हैं

> summary(lm(y~x))

Coefficients:
            Estimate Std. Error  t value Pr(>|t|)    
(Intercept) 999.8255     0.4609 2169.230   <2e-16 ***
x             0.5728     0.4456    1.286    0.199    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 14.57 on 998 degrees of freedom
Multiple R-squared:  0.001653,  Adjusted R-squared:  0.0006528 
F-statistic: 1.653 on 1 and 998 DF,  p-value: 0.1989

और आप निष्कर्ष निकालते हैं कि xइसमें कोई सांख्यिकीय प्रभाव नहीं है y। देखें कि मानक त्रुटि कितनी बड़ी है। लेकिन एक यादृच्छिक-अवरोधक मॉडल चलाना

> summary(lmer(y~x + (1|i)))

Random effects:
 Groups   Name        Variance Std.Dev.
 i        (Intercept) 213.062  14.597  
 Residual               1.066   1.032  
Number of obs: 1000, groups:  i, 100

Fixed effects:
            Estimate Std. Error t value
(Intercept) 999.8247     1.4600   684.8
x             0.4997     0.0327    15.3

आप देखते हैं कि अनुमान की मानक त्रुटि कितनी बदल गई है। यादृच्छिक प्रभाव वाले हिस्से को देखते हुए, हम देखते हैं कि परिवर्तनशीलता कैसे विघटित हो गई है - आय में परिवर्तनशीलता का अधिकांश भाग देशों के बीच है, और देशों के भीतर लोगों के पास अधिक समान आय है। सरल शब्दों में, यहां जो हुआ वह यह है कि x"खो जाना" (यदि हम इस तरह के शब्द का उपयोग कर सकते हैं) के प्रभाव का लेखा-जोखा नहीं है , लेकिन परिवर्तनशीलता को कम करके आप पाते हैं कि आपको वास्तव में क्या मिलना चाहिए।


+1 धन्यवाद, यह बहुत अच्छा है। हालांकि मुझे यकीन है कि मुझे कई बार यह याद है कि एसईएस आमतौर पर छोटे होते हैं जब क्लस्टरिंग के लिए खाते में असफल हो जाते हैं, इसलिए मैं अभी भी कुछ उलझन में हूं - क्या परिदृश्य हैं जब रैखिक मॉडल बहुत छोटा एसई लौटाएगा?
जो राजा

@JoeKing यह मजबूत एसई के लिए सही है, न कि मल्टीलेवल मॉडलिंग के लिए। आप इसे उस पृष्ठ पर भी देख सकते हैं जिसमें आपने डेटा लिया है।
स्टीव

@JoeKing पूरी तरह से अंतर को देखने के लिए आँकड़े
स्टीव
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.