टीएल; डीआर : मिश्रित-एफिस मॉडल में प्रति क्लस्टर न्यूनतम नमूना आकार 1 है, बशर्ते कि क्लस्टर की संख्या पर्याप्त है, और सिंगलटन क्लस्टर का अनुपात "बहुत अधिक" नहीं है
लंबा संस्करण:
सामान्य तौर पर, क्लस्टर की संख्या प्रति क्लस्टर टिप्पणियों की संख्या से अधिक महत्वपूर्ण है। 700 के साथ, स्पष्ट रूप से आपको वहां कोई समस्या नहीं है।
छोटे क्लस्टर आकार काफी सामान्य हैं, विशेष रूप से सामाजिक विज्ञान सर्वेक्षणों में जो स्तरीकृत नमूनाकरण डिजाइन का पालन करते हैं, और अनुसंधान का एक निकाय है जिसने क्लस्टर-स्तरीय नमूना आकार की जांच की है।
यादृच्छिक प्रभाव (ऑस्टिन एंड लेकी, 2018) का अनुमान लगाने के लिए क्लस्टर आकार में वृद्धि करने से सांख्यिकीय शक्ति में वृद्धि होती है, छोटे क्लस्टर आकार गंभीर पूर्वाग्रह (बेल एट अल, 2008; क्लार्क, 2008; क्लार्क और व्हीटन, 2007; मास & होक्स) का नेतृत्व नहीं करते हैं। , 2005)। इस प्रकार, प्रति क्लस्टर न्यूनतम नमूना आकार 1 है।
विशेष रूप से, बेल, एट अल (2008) ने मोंटे कार्लो सिमुलेशन अध्ययन किया जिसमें सिंगलटन क्लस्टर्स (केवल एक ही अवलोकन वाले क्लस्टर) का अनुपात 0% से 70% तक था, और पाया कि, क्लस्टर की संख्या बड़ी थी (~ 500) छोटे क्लस्टर आकार का पूर्वाग्रह और प्रकार 1 त्रुटि नियंत्रण पर लगभग कोई प्रभाव नहीं पड़ा।
उन्होंने अपने किसी भी मॉडलिंग परिदृश्य के तहत मॉडल अभिसरण के साथ बहुत कम समस्याओं की सूचना दी।
ओपी में विशेष परिदृश्य के लिए, मैं पहले उदाहरण में 700 क्लस्टर के साथ मॉडल चलाने का सुझाव दूंगा। जब तक इस के साथ कोई स्पष्ट समस्या नहीं थी, मुझे क्लस्टर्स को मर्ज करने के लिए विघटित किया जाएगा। मैंने R में एक साधारण सिमुलेशन चलाया:
यहां हम 1 के अवशिष्ट विचरण के साथ एक संकुल डेटासेट बनाते हैं, एक एकल निश्चित प्रभाव भी 1, 700 क्लस्टर, जिनमें से 690 एकल हैं और 10 में केवल 2 अवलोकन हैं। हम 1000 बार सिमुलेशन चलाते हैं और अनुमानित निश्चित और अवशिष्ट यादृच्छिक प्रभावों के हिस्टोग्राम का निरीक्षण करते हैं।
> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) {
dtB$x <- rnorm(nrow(dtB), 0, 1)
dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1
fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
fixef.v[i] <- fixef(fm0B)[[2]]
ranef.v[i] <- attr(VarCorr(fm0B), "sc")
}
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)
जैसा कि आप देख सकते हैं, निश्चित प्रभाव बहुत अच्छी तरह से अनुमानित हैं, जबकि अवशिष्ट यादृच्छिक प्रभाव थोड़ा नीचे-पक्षपाती प्रतीत होते हैं, लेकिन बहुत अधिक नहीं:
> summary(fixef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.6479 0.9439 0.9992 1.0005 1.0578 1.2544
> summary(ranef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.2796 0.7745 0.9004 0.8993 1.0212 1.4837
ओपी विशेष रूप से क्लस्टर-स्तरीय यादृच्छिक प्रभावों के अनुमान का उल्लेख करता है। ऊपर दिए गए सिमुलेशन में, यादृच्छिक प्रभावों को प्रत्येक Subject
आईडी के मूल्य के रूप में बनाया गया था (100 के कारक द्वारा नीचे स्केल किया गया)। स्पष्ट रूप से ये सामान्य रूप से वितरित नहीं होते हैं, जो रैखिक मिश्रित प्रभाव मॉडल की धारणा है, हालांकि, हम क्लस्टर स्तर के प्रभावों को (सशर्त मोड) निकाल सकते हैं और उन्हें वास्तविक Subject
आईडी के खिलाफ साजिश कर सकते हैं :
> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)
हिस्टोग्राम कुछ हद तक सामान्यता से विदा हो जाता है, लेकिन यह उस तरीके के कारण है जिससे हमने डेटा का अनुकरण किया है। अभी भी अनुमानित और वास्तविक यादृच्छिक प्रभावों के बीच एक उचित संबंध है।
संदर्भ:
पीटर सी। ऑस्टिन और जॉर्ज लेकी (2018) सांख्यिकीय शक्ति पर क्लस्टर और क्लस्टर आकार की संख्या का प्रभाव और मल्टीलेवल रैखिक और उपस्कर प्रतिगमन मॉडल में यादृच्छिक प्रभाव विचरण घटकों का परीक्षण करते समय त्रुटि दर, सांख्यिकीय गणना और सिमुलेशन के जर्नल: 88: 16, 3151-3163, डीओआई: 10.1080 / 00949655.2018.1504945
बेल, बीए, फेरोन, जेएम, और क्रॉम्रे, जेडी (2008)। बहुस्तरीय मॉडलों में क्लस्टर का आकार: दो-स्तरीय मॉडल में बिंदु और अंतराल के अनुमानों पर विरल डेटा संरचनाओं का प्रभाव । जेएसएम कार्यवाही, सर्वेक्षण अनुसंधान विधियों पर धारा, 1122-1129।
क्लार्क, पी। (2008)। समूह स्तर क्लस्टरिंग को कब अनदेखा किया जा सकता है? बहुस्तरीय मॉडल बनाम विरल डेटा वाले एकल-स्तरीय मॉडल । जर्नल ऑफ एपिडेमियोलॉजी एंड कम्युनिटी हेल्थ, 62 (8), 752-758।
क्लार्क, पी।, और व्हीटन, बी (2007)। सिंथेटिक पड़ोस बनाने के लिए क्लस्टर विश्लेषण का उपयोग करके प्रासंगिक जनसंख्या अनुसंधान में डेटा प्रसार को संबोधित करना । समाजशास्त्रीय तरीके और अनुसंधान, 35 (3), 311-351।
मास, सीजे, और होक्स, जे जे (2005)। मल्टीलेवल मॉडलिंग के लिए पर्याप्त नमूना आकार । पद्धति, 1 (3), 86-92।