मैंने प्राथमिक आँकड़ों में सीखा कि सामान्य रेखीय मॉडल के साथ, इनफ़ॉर्म्स वैध होने के लिए, टिप्पणियों को स्वतंत्र होना चाहिए। जब क्लस्टरिंग होती है, तो स्वतंत्रता को अमान्य निष्कासन के लिए अग्रणी नहीं रखा जा सकता है जब तक कि यह हिसाब न हो। मिश्रित मॉडल का उपयोग करके इस तरह के क्लस्टरिंग का एक तरीका है। मैं एक उदाहरण डेटासेट, सिम्युलेटेड या नहीं खोजना चाहूंगा, जो इसे स्पष्ट रूप से प्रदर्शित करता हो। मैंने क्लस्टर डेटा का विश्लेषण करने के लिए यूसीएलए साइट पर एक नमूना डेटासेट का उपयोग करने की कोशिश की
> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")
> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 740.3981 11.5522 64.092 <2e-16 ***
growth -0.1027 0.2112 -0.486 0.6271
emer -5.4449 0.5395 -10.092 <2e-16 ***
yr_rnd -51.0757 19.9136 -2.565 0.0108 *
> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)
Fixed effects:
Estimate Std. Error t value
(Intercept) 748.21841 12.00168 62.34
growth -0.09791 0.20285 -0.48
emer -5.64135 0.56470 -9.99
yr_rnd -39.62702 18.53256 -2.14
जब तक मैं कुछ याद नहीं कर रहा हूं, ये परिणाम पर्याप्त हैं कि मुझे नहीं लगता कि इससे आउटपुट lm()
अमान्य है। मैंने कुछ अन्य उदाहरणों को देखा है (उदाहरण के लिए ब्रिस्टल यूनिवर्सिटी सेंटर फॉर मल्टीलेवल मॉडलिंग से 5.2 ) और पाया कि मानक त्रुटियां भी बहुत भिन्न नहीं हैं (मैं मिश्रित मॉडल से खुद को यादृच्छिक प्रभावों में दिलचस्पी नहीं रखता हूं, लेकिन यह ध्यान देने योग्य है मिश्रित मॉडल आउटपुट से आईसीसी 0.42 है)।
इसलिए, मेरे सवाल 1) हैं कि क्लस्टरिंग होने पर मानक त्रुटियों को किन स्थितियों में अलग-अलग रूप से चिह्नित किया जाएगा, और 2) कोई व्यक्ति इस तरह के डेटासेट (नकली या नहीं) का एक उदाहरण प्रदान कर सकता है।