यादृच्छिक प्रभाव मॉडल में क्लस्टर के प्रति न्यूनतम नमूना आकार

10

क्या यादृच्छिक प्रभाव मॉडल में प्रति क्लस्टर टिप्पणियों की संख्या के लिए एक तर्कसंगत है? मेरे पास 700 क्लस्टरों के साथ 1,500 का एक नमूना आकार है जो विनिमेय यादृच्छिक प्रभाव के रूप में तैयार किया गया है। मेरे पास कम, लेकिन बड़े समूहों के निर्माण के लिए समूहों को मिलाने का विकल्प है। मुझे आश्चर्य है कि मैं प्रत्येक क्लस्टर के लिए यादृच्छिक प्रभाव की भविष्यवाणी में सार्थक परिणाम के लिए प्रति क्लस्टर न्यूनतम नमूना आकार कैसे चुन सकता हूं? क्या कोई अच्छा पेपर है जो यह बताता है?

— Roccer
स्रोत

13

टीएल; डीआर : मिश्रित-एफिस मॉडल में प्रति क्लस्टर न्यूनतम नमूना आकार 1 है, बशर्ते कि क्लस्टर की संख्या पर्याप्त है, और सिंगलटन क्लस्टर का अनुपात "बहुत अधिक" नहीं है

लंबा संस्करण:

सामान्य तौर पर, क्लस्टर की संख्या प्रति क्लस्टर टिप्पणियों की संख्या से अधिक महत्वपूर्ण है। 700 के साथ, स्पष्ट रूप से आपको वहां कोई समस्या नहीं है।

छोटे क्लस्टर आकार काफी सामान्य हैं, विशेष रूप से सामाजिक विज्ञान सर्वेक्षणों में जो स्तरीकृत नमूनाकरण डिजाइन का पालन करते हैं, और अनुसंधान का एक निकाय है जिसने क्लस्टर-स्तरीय नमूना आकार की जांच की है।

यादृच्छिक प्रभाव (ऑस्टिन एंड लेकी, 2018) का अनुमान लगाने के लिए क्लस्टर आकार में वृद्धि करने से सांख्यिकीय शक्ति में वृद्धि होती है, छोटे क्लस्टर आकार गंभीर पूर्वाग्रह (बेल एट अल, 2008; क्लार्क, 2008; क्लार्क और व्हीटन, 2007; मास & होक्स) का नेतृत्व नहीं करते हैं। , 2005)। इस प्रकार, प्रति क्लस्टर न्यूनतम नमूना आकार 1 है।

विशेष रूप से, बेल, एट अल (2008) ने मोंटे कार्लो सिमुलेशन अध्ययन किया जिसमें सिंगलटन क्लस्टर्स (केवल एक ही अवलोकन वाले क्लस्टर) का अनुपात 0% से 70% तक था, और पाया कि, क्लस्टर की संख्या बड़ी थी (~ 500) छोटे क्लस्टर आकार का पूर्वाग्रह और प्रकार 1 त्रुटि नियंत्रण पर लगभग कोई प्रभाव नहीं पड़ा।

उन्होंने अपने किसी भी मॉडलिंग परिदृश्य के तहत मॉडल अभिसरण के साथ बहुत कम समस्याओं की सूचना दी।

ओपी में विशेष परिदृश्य के लिए, मैं पहले उदाहरण में 700 क्लस्टर के साथ मॉडल चलाने का सुझाव दूंगा। जब तक इस के साथ कोई स्पष्ट समस्या नहीं थी, मुझे क्लस्टर्स को मर्ज करने के लिए विघटित किया जाएगा। मैंने R में एक साधारण सिमुलेशन चलाया:

यहां हम 1 के अवशिष्ट विचरण के साथ एक संकुल डेटासेट बनाते हैं, एक एकल निश्चित प्रभाव भी 1, 700 क्लस्टर, जिनमें से 690 एकल हैं और 10 में केवल 2 अवलोकन हैं। हम 1000 बार सिमुलेशन चलाते हैं और अनुमानित निश्चित और अवशिष्ट यादृच्छिक प्रभावों के हिस्टोग्राम का निरीक्षण करते हैं।

> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) { 
   dtB$x <- rnorm(nrow(dtB), 0, 1)
   dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1

   fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
   fixef.v[i] <- fixef(fm0B)[[2]]
   ranef.v[i] <- attr(VarCorr(fm0B), "sc")
 }
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)

जैसा कि आप देख सकते हैं, निश्चित प्रभाव बहुत अच्छी तरह से अनुमानित हैं, जबकि अवशिष्ट यादृच्छिक प्रभाव थोड़ा नीचे-पक्षपाती प्रतीत होते हैं, लेकिन बहुत अधिक नहीं:

> summary(fixef.v)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.6479  0.9439  0.9992  1.0005  1.0578  1.2544 
> summary(ranef.v)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.2796  0.7745  0.9004  0.8993  1.0212  1.4837

ओपी विशेष रूप से क्लस्टर-स्तरीय यादृच्छिक प्रभावों के अनुमान का उल्लेख करता है। ऊपर दिए गए सिमुलेशन में, यादृच्छिक प्रभावों को प्रत्येक Subjectआईडी के मूल्य के रूप में बनाया गया था (100 के कारक द्वारा नीचे स्केल किया गया)। स्पष्ट रूप से ये सामान्य रूप से वितरित नहीं होते हैं, जो रैखिक मिश्रित प्रभाव मॉडल की धारणा है, हालांकि, हम क्लस्टर स्तर के प्रभावों को (सशर्त मोड) निकाल सकते हैं और उन्हें वास्तविक Subjectआईडी के खिलाफ साजिश कर सकते हैं :

> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)

हिस्टोग्राम कुछ हद तक सामान्यता से विदा हो जाता है, लेकिन यह उस तरीके के कारण है जिससे हमने डेटा का अनुकरण किया है। अभी भी अनुमानित और वास्तविक यादृच्छिक प्रभावों के बीच एक उचित संबंध है।

संदर्भ:

पीटर सी। ऑस्टिन और जॉर्ज लेकी (2018) सांख्यिकीय शक्ति पर क्लस्टर और क्लस्टर आकार की संख्या का प्रभाव और मल्टीलेवल रैखिक और उपस्कर प्रतिगमन मॉडल में यादृच्छिक प्रभाव विचरण घटकों का परीक्षण करते समय त्रुटि दर, सांख्यिकीय गणना और सिमुलेशन के जर्नल: 88: 16, 3151-3163, डीओआई: 10.1080 / 00949655.2018.1504945

बेल, बीए, फेरोन, जेएम, और क्रॉम्रे, जेडी (2008)। बहुस्तरीय मॉडलों में क्लस्टर का आकार: दो-स्तरीय मॉडल में बिंदु और अंतराल के अनुमानों पर विरल डेटा संरचनाओं का प्रभाव । जेएसएम कार्यवाही, सर्वेक्षण अनुसंधान विधियों पर धारा, 1122-1129।

क्लार्क, पी। (2008)। समूह स्तर क्लस्टरिंग को कब अनदेखा किया जा सकता है? बहुस्तरीय मॉडल बनाम विरल डेटा वाले एकल-स्तरीय मॉडल । जर्नल ऑफ एपिडेमियोलॉजी एंड कम्युनिटी हेल्थ, 62 (8), 752-758।

क्लार्क, पी।, और व्हीटन, बी (2007)। सिंथेटिक पड़ोस बनाने के लिए क्लस्टर विश्लेषण का उपयोग करके प्रासंगिक जनसंख्या अनुसंधान में डेटा प्रसार को संबोधित करना । समाजशास्त्रीय तरीके और अनुसंधान, 35 (3), 311-351।

मास, सीजे, और होक्स, जे जे (2005)। मल्टीलेवल मॉडलिंग के लिए पर्याप्त नमूना आकार । पद्धति, 1 (3), 86-92।

— रॉबर्ट लांग
स्रोत

1

+1 शानदार जवाब। संबंधित: मुझे लॉजिस्टिक मल्टीलेवल मॉडल से परेशानी है जहां लगभग आधे समूहों में केवल 1 अवलोकन है। यहां देखें: आंकड़े

— मार्क व्हाइट

4

मिश्रित मॉडलों में यादृच्छिक बेयर्स पद्धति का उपयोग करके यादृच्छिक प्रभावों का सबसे अधिक अनुमान लगाया जाता है। इस पद्धति की एक विशेषता संकोचन है। निश्चित रूप से, अनुमानित यादृच्छिक प्रभाव मॉडल के समग्र माध्य की ओर सिकुड़ जाते हैं, जो निश्चित प्रभाव वाले भाग द्वारा वर्णित होते हैं। संकोचन की डिग्री दो घटकों पर निर्भर करती है:

त्रुटि शब्दों के विचरण के परिमाण की तुलना में यादृच्छिक प्रभावों के विचरण का परिमाण। त्रुटि शर्तों के विचरण के संबंध में यादृच्छिक प्रभावों का बड़ा विचलन, संकोचन की छोटी डिग्री।
समूहों में दोहराया माप की संख्या। अधिक बार-बार माप के साथ समूहों के यादृच्छिक प्रभाव का अनुमान कम माप वाले समूहों की तुलना में समग्र माध्य की ओर कम होता है।

आपके मामले में, दूसरा बिंदु अधिक प्रासंगिक है। हालांकि, ध्यान दें कि विलय समूहों के आपके सुझाए गए समाधान पहले बिंदु पर भी असर डाल सकते हैं।

— दिमित्रिस रिजोपौलोस
स्रोत