यादृच्छिक प्रभाव कारक के लिए समूहों की न्यूनतम अनुशंसित संख्या क्या है?


26

मैं कुछ दोहराया उपायों डेटा का विश्लेषण करने के लिए R( lme4) में एक मिश्रित मॉडल का उपयोग कर रहा हूं । मेरे पास एक प्रतिक्रिया चर (मल की फाइबर सामग्री) और 3 निश्चित प्रभाव (शरीर द्रव्यमान, आदि) हैं। मेरे अध्ययन में केवल 6 प्रतिभागी हैं, प्रत्येक के लिए 16 दोहराए गए उपायों के साथ (हालांकि दो में केवल 12 दोहराव हैं)। विषय छिपकली हैं जिन्हें अलग-अलग 'उपचार' में भोजन के विभिन्न संयोजन दिए गए थे।

मेरा सवाल है: क्या मैं एक यादृच्छिक प्रभाव के रूप में विषय आईडी का उपयोग कर सकता हूं?

मुझे पता है कि यह अनुदैर्ध्य मिश्रित प्रभाव वाले मॉडल में कार्रवाई का सामान्य पाठ्यक्रम है, विषयों के बेतरतीब ढंग से नमूना प्रकृति का ध्यान रखने के लिए और इस तथ्य के विषयों के बीच विषयों की तुलना में अधिक बारीकी से संबंधित होगा। लेकिन, विषय आईडी को एक यादृच्छिक प्रभाव के रूप में मानने से इस चर के लिए माध्य और विचरण का अनुमान लगाना शामिल है।

  • चूंकि मेरे पास केवल 6 विषय हैं (इस कारक के 6 स्तर), क्या यह माध्य और विचरण का एक सटीक लक्षण वर्णन प्राप्त करने के लिए पर्याप्त है?

  • क्या तथ्य यह है कि मेरे पास इस विषय में प्रत्येक विषय की मदद के लिए कुछ दोहराया माप है (मैं यह नहीं देखता कि यह कैसे मायने रखता है)?

  • अंत में, यदि मैं एक यादृच्छिक प्रभाव के रूप में विषय आईडी का उपयोग नहीं कर सकता हूं, तो क्या इसे एक निश्चित प्रभाव के रूप में शामिल किया जाएगा, जिससे मुझे इस तथ्य को नियंत्रित करने की अनुमति मिल जाएगी कि मेरे पास बार-बार उपाय हैं?

संपादित करें: मैं केवल यह स्पष्ट करना चाहूंगा कि जब मैं कहता हूं "क्या मैं विषय आईडी को यादृच्छिक प्रभाव के रूप में उपयोग कर सकता हूं, मेरा मतलब है" यह एक अच्छा विचार है "। मुझे पता है कि मैं सिर्फ 2 स्तरों के साथ एक मॉडल के साथ फिट हो सकता हूं, लेकिन निश्चित रूप से यह रक्षात्मक होगा? मैं यह पूछ रहा हूं कि विषयों को यादृच्छिक प्रभावों के रूप में सोचने के लिए किस बिंदु पर समझदार हो सकता है? ऐसा लगता है कि साहित्य सलाह देता है कि 5-6 का स्तर कमतर है। यह मुझे लगता है कि यादृच्छिक प्रभाव के माध्य और विचरण के अनुमान 15+ कारक स्तरों तक बहुत सटीक नहीं होंगे।

जवाबों:


21

संक्षिप्त उत्तर: हाँ, आप 6 स्तरों के साथ यादृच्छिक प्रभाव के रूप में आईडी का उपयोग कर सकते हैं।

थोड़ा लंबा जवाब: @ BenBolker's GLMM FAQ कहते हैं (अन्य बातों के अलावा) हेडलाइन के तहत " क्या मुझे फैक्टर xxx को फिक्स्ड या रैंडम मानना चाहिए? "

'आधुनिक' मिश्रित मॉडल अनुमान ('शास्त्रीय' विधि-से-क्षण अनुमान के बजाय) के लिए विशेष प्रासंगिकता का एक बिंदु यह है कि व्यावहारिक उद्देश्यों के लिए, यादृच्छिक-प्रभाव स्तर (जैसे ब्लॉक) की एक उचित संख्या होनी चाहिए - से अधिक न्यूनतम पर 5 या 6।

तो आप निम्न सीमा पर हैं, लेकिन इसके दाईं ओर।


12

एक बहुस्तरीय मॉडल के लिए समूहों की न्यूनतम संख्या का पता लगाने के प्रयास में मैंने जेलमैन और हिल (2007) द्वारा प्रतिगमन और मुलायतीवेल / श्रेणीबद्ध मॉडल का उपयोग करते हुए पुस्तक डेटा एनालिसिस पर ध्यान दिया ।

वे इस विषय को अध्याय 11, धारा 5 (पृष्ठ 247) में संबोधित करते हैं जहां वे लिखते हैं कि जब <5 समूह होते हैं तो बहुस्तरीय मॉडल आम तौर पर शास्त्रीय मॉडल पर थोड़ा जोड़ते हैं। हालांकि, वे लिखते हैं कि मल्टीलेवल मॉडल को लागू करने के लिए बहुत कम जोखिम है।

समान लेखक अध्याय 12, धारा 9 (पृष्ठ 275-276) में इस विषय पर लौटते दिखाई देते हैं। वहां वे लिखते हैं कि बहुस्तरीय मॉडल के लिए न्यूनतम समूहों की सलाह गुमराह करने वाली है। वहां वे फिर से कहते हैं कि बहुस्तरीय मॉडल अक्सर शास्त्रीय मॉडल में बहुत कम जोड़ते हैं जब समूहों की संख्या छोटी होती है। हालांकि, वे यह भी लिखते हैं कि बहुस्तरीय मॉडलों को बिना पूलिंग प्रतिगमन (जहां नो-पूलिंग का मतलब है कि समूह संकेतक शास्त्रीय प्रतिगमन में उपयोग किया जाता है) से अधिक खराब नहीं होना चाहिए।

पृष्ठों पर 275-276 लेखकों के पास एक या दो समूहों (जैसे, पुरुष बनाम महिला) के मामले के लिए एक विशिष्ट उपधारा है। यहां वे लिखते हैं कि वे आमतौर पर शास्त्रीय रूप में मॉडल को व्यक्त करते हैं। हालांकि, वे कहते हैं कि बहुस्तरीय मॉडलिंग केवल एक या दो समूहों के साथ भी उपयोगी हो सकती है। वे लिखते हैं कि एक या दो समूहों के साथ बहुस्तरीय मॉडलिंग शास्त्रीय प्रतिगमन को कम करता है।

इससे मेरी धारणा यह है कि शास्त्रीय प्रतिगमन मॉडल के एक निरंतरता का एक छोर है, अर्थात, एक बहुस्तरीय मॉडल का एक विशेष मामला।

उपरोक्त के आधार पर, मेरी धारणा यह है कि शास्त्रीय प्रतिगमन और बहुस्तरीय मॉडलिंग लगभग समान अनुमान लौटाएंगे जब केवल दो समूह हैं और केवल एक, दो, तीन, चार, पांच या छह समूहों के साथ बहुस्तरीय मॉडल का उपयोग करना ठीक है।

मैं Rकोड के साथ भविष्य में इस उत्तर को संशोधित करने का प्रयास करूंगा और दो समूहों का उपयोग करते समय दोनों दृष्टिकोणों के साथ प्राप्त अनुमानों की तुलना में एक छोटा डेटा सेट।


10

इसके लायक क्या है, मैंने अपेक्षाकृत सरल एलएमएम (के sleepstudyमाध्यम से उपलब्ध डेटासेट का उपयोग करके lme4) के लिए विचरण अनुमान की स्थिरता को देखने के लिए एक सिमुलेशन अध्ययन किया । पहला तरीका ngroupsविषयों की संख्या के लिए सभी संभव विषय संयोजन बनाता है , और प्रत्येक संभव संयोजन के लिए मॉडल को परिष्कृत करता है। दूसरा विषयों के कई यादृच्छिक उपसमूह लेता है।

library(lme4)
library(ggplot2)
library(tidyr)

m0 <- lmer(Reaction ~ Days + (1|Subject), data = sleepstudy,
           control = lmerControl(optimizer = "nloptwrap"))
# set the number of factor levels
ngroups <- 3:18 
# generate all possible combinations
combos <- lapply(X = ngroups, 
                 FUN = function(x) combn(unique(sleepstudy$Subject), x)) 

# allocate output (sorry, this code is entirely un-optimized)
out <- list(matrix(NA, ncol(combos[[1]]), 1), matrix(NA, ncol(combos[[2]]), 1),
            matrix(NA, ncol(combos[[3]]), 1), matrix(NA, ncol(combos[[4]]), 1),
            matrix(NA, ncol(combos[[5]]), 1), matrix(NA, ncol(combos[[6]]), 1),
            matrix(NA, ncol(combos[[7]]), 1), matrix(NA, ncol(combos[[8]]), 1),
            matrix(NA, ncol(combos[[9]]), 1), matrix(NA, ncol(combos[[10]]), 1),
            matrix(NA, ncol(combos[[11]]), 1), matrix(NA, ncol(combos[[12]]), 1),
            matrix(NA, ncol(combos[[13]]), 1), matrix(NA, ncol(combos[[14]]), 1),
            matrix(NA, ncol(combos[[15]]), 1), matrix(NA, ncol(combos[[16]]), 1))
# took ~ 2.5 hrs on my laptop, commented out for safety
#system.time(for(ii in 1:length(combos)) {
#    for(jj in 1:ncol(combos[[ii]])) {
#    sls <- sleepstudy[sleepstudy$Subject %in% combos[[ii]][,jj],]
#    out[[ii]][jj] <- attr(VarCorr(update(m0, data = sls))$Subject, 'stddev')
#        }
#    })

# pad with zeros, not all were equal
# from http://stackoverflow.com/questions/11148429/r-convert-asymmetric-list-to-matrix-number-of-elements-in-each-sub-list-diffe
max.len <- max(sapply(out, length))
corrected.list <- lapply(out, function(x) {c(x, rep(NA, max.len - length(x)))})
mat <- do.call(rbind, corrected.list)
mat <- data.frame(t(mat))
names(mat) <- paste0('s',3:18)
mat <- gather(mat, run, value)

ggplot(mat, aes(x = value, fill = run)) + 
    geom_histogram(bins = 60) +
    geom_vline(xintercept = 37.12, linetype =  'longdash', 
               aes(colour = 'original')) +
    facet_wrap(~run, scales = 'free_y') +
    scale_x_continuous(breaks = seq(0, 100, by = 20)) + 
    theme_bw() + 
    guides(fill = FALSE)

बिंदीदार काली रेखा विचरण का मूल बिंदु अनुमान है, और पहलू विभिन्न विषयों ( s3तीन विषयों के समूह, s4चार होने आदि) का प्रतिनिधित्व करते हैं । यहाँ छवि विवरण दर्ज करें

और वैकल्पिक तरीका:

ngroups <- 3:18
reps <- 500
out2<- matrix(NA, length(ngroups), reps)

for (ii in 1:length(ngroups)) {
    for(j in 1:reps) {
        sls <- sleepstudy[sleepstudy$Subject %in% sample(unique(sleepstudy$Subject), ngroups[i], replace = FALSE),]
        out2[i,j] <- attr(VarCorr(update(m0, data = sls))$Subject, 'stddev')
    }
}
out2 <- data.frame(t(out2))
names(out2) <- paste0('s',3:18)
out2 <- gather(out2, run, value)

ggplot(out2, aes(x = value, fill = run)) + 
    geom_histogram(bins = 60) +
    geom_vline(xintercept = 37.12, linetype =  'longdash', 
               aes(colour = 'original')) +
    facet_wrap(~run, scales = 'free_y') +
    scale_x_continuous(breaks = seq(0, 100, by = 20)) + 
    theme_bw() + 
    guides(fill = FALSE)

यहाँ छवि विवरण दर्ज करें

ऐसा प्रतीत होता है (इस उदाहरण के लिए, वैसे भी) कि विचरण वास्तव में तब तक स्थिर नहीं होता है जब तक कि कम से कम 14 विषय न हों, यदि बाद में नहीं।


1
+1। बेशक विषयों की संख्या जितनी छोटी होगी, विचरण अनुमानक का विचरण उतना ही बड़ा होगा। लेकिन मुझे नहीं लगता कि यहां यही मायने रखता है। प्रश्न यह है कि किस संख्या में विषय कुछ समझदार परिणाम प्राप्त करने की अनुमति देता है? यदि हम "गैर-समझदार" परिणाम को शून्य संस्करण प्राप्त करने के रूप में परिभाषित करते हैं, तो आपके सिमुलेशन में यह अक्सर n = 5 या उससे कम के साथ होता है। N = 6 या n = 7 से शुरू होकर, आपको लगभग कभी भी सटीक 0 अनुमान नहीं मिलता है, अर्थात मॉडल एक गैर-पतित समाधान में परिवर्तित हो रहा है। मेरा निष्कर्ष यह होगा कि n = 6 सीमा रेखा स्वीकार्य है।
अमीबा का कहना है कि मोनिका


8

एंग्रीस्ट और पिस्चके के "मोस्टली हार्मलेस इकोनोमेट्रिक्स" का एक सेक्शन है, जिसका शीर्षक है, "42 क्लस्टर की तुलना में कम", जिसमें वे अर्ध-मजाक में कहते हैं,

इसलिए, निम्नलिखित ... जीवन, ब्रह्मांड और सब कुछ का उत्तर देने वाला तानाशाही 42 है, हम मानते हैं कि सवाल यह है: मानक क्लस्टर समायोजन [जीईई में विचरण अनुमानक के समान] का उपयोग करके विश्वसनीय अनुमान के लिए कितने क्लस्टर पर्याप्त हैं?

जिस तरह से मेरे अर्थशास्त्री प्रशिक्षक ने आपके जैसे सवालों के जवाब देने के लिए इस्तेमाल किया है, "अमेरिका एक स्वतंत्र देश है, आप जो चाहें कर सकते हैं। लेकिन अगर आप अपना पेपर प्रकाशित करना चाहते हैं, तो आपको अपने बचाव में सक्षम होना चाहिए। " दूसरे शब्दों में, आप संभवतः 6 विषयों के साथ R या Stata या HLM या Mplus या SAS PROC GLIMMIX कोड चलाने में सक्षम होंगे (और यदि आपकी पसंद में से कोई एक इसे नहीं चलाता है तो इन वैकल्पिक पैकेजों पर स्विच करें), लेकिन आपकी संभावना होगी बहुत मुश्किल समय इस दृष्टिकोण का बचाव करने और स्पर्शोन्मुख परीक्षणों को सही ठहराता है।

मेरा मानना ​​है कि डिफ़ॉल्ट रूप से, एक यादृच्छिक ढलान के रूप में एक चर सहित, इसका मतलब है कि एक निश्चित प्रभाव के रूप में भी शामिल है, और आपको सिंटैक्स हुप्स के माध्यम से कूदने की आवश्यकता है यदि आप केवल इस के साथ एक यादृच्छिक प्रभाव के रूप में चाहते हैं शून्य। यह एक समझदार विकल्प है जो सॉफ्टवेयर डेवलपर्स ने आपके लिए बनाया है।


1
मैं आपकी बात पर ध्यान देता हूं कि प्रश्न का उत्तर एक सीमा तक है, "स्ट्रिंग का एक टुकड़ा कितना लंबा है"। लेकिन, मैं 15-20 मिनट से कम समय के नमूने से माध्य या विचरण का अनुमान लगाने में बहुत अधिक विश्वास नहीं रखूंगा, इसलिए अंगूठे का एक ही नियम यादृच्छिक प्रभाव के स्तरों पर लागू नहीं होगा। मैंने कभी किसी को विषय आईडी को अनुदैर्ध्य अध्ययनों में एक निश्चित और एक यादृच्छिक प्रभाव के रूप में शामिल नहीं देखा है - क्या यह आम बात है?
क्रिस

मिश्रित मॉडल में विषयों के एक छोटे से # शीर्ष पर, उनके यादृच्छिक प्रभाव अप्रमाणित होते हैं, इसलिए आपको उन्हें डेटा से बाहर करना होगा, और यकीनन आपको अपेक्षाकृत अधिक डेटा की आवश्यकता होगी जो मज़बूती से सिर्फ मतलब का अनुमान लगाने की तुलना में है। विचरण जब सब कुछ देखा जाता है। इस प्रकार 42 बनाम 15-20 :)। मुझे लगता है कि मेरा मतलब यादृच्छिक ढलानों से है, क्योंकि आप विषय आईडी में केवल यादृच्छिक प्रभावों के रूप में सही हैं, अन्यथा उन्हें पहचाना नहीं जाएगा। अर्थशास्त्री इस तरह से यादृच्छिक प्रभावों में विश्वास नहीं करते हैं, और लगभग अनन्य रूप से प्रकाशित करते हैं जिसे वे "निश्चित प्रभाव" कहते हैं, अर्थात, विषय के भीतर अनुमान।
StasK

2
+1 @StasK एक ऐसे प्रश्न के बहुत अच्छे उत्तर के लिए, जिससे निपटना बहुत मुश्किल है। मुझे लगता है कि हालांकि अनावश्यक व्यंग्य का तड़का है और आप अपने जवाब को संपादित करने पर विचार कर सकते हैं ताकि ओपी का थोड़ा और सम्मान किया जा सके।
माइकल आर। चेरिक

@ मिचेल, आप शायद सही कह रहे हैं कि यह एक मूडी उत्तर है, और संभवतः अनावश्यक रूप से। ओपी ने उस जवाब को स्वीकार कर लिया जो वे सुनना चाहते थे, हालांकि, उन्हें इस पर एक संकल्प मिला। एक अधिक गंभीर उत्तर या तो एक अच्छा सिमुलेशन साक्ष्य या उच्चतर आदेश स्पर्शोन्मुख विश्लेषण के लिए इंगित करेगा, लेकिन दुर्भाग्य से मुझे ऐसे संदर्भों की जानकारी नहीं है।
StasK

3
इसके लायक क्या है, मुझे लगता है कि "42" मैजिक नंबर तब नहीं है जब यादृच्छिक प्रभावों को उचित ठहराया जाता है, लेकिन जब कोई परिमित आकार सुधारों के बारे में चिंता किए बिना दूर हो सकता है (उदाहरण के लिए स्वतंत्रता के प्रभावी भाजक डिग्री / केनवर्ड-रोगन सुधारों के बारे में सोच रहा है) अन्य समान दृष्टिकोण)।
बेन बोलकर

7

आप बायेसियन मिश्रित मॉडल का उपयोग भी कर सकते हैं - उस स्थिति में यादृच्छिक प्रभावों के अनुमान में अनिश्चितता 95% भविष्यवाणी विश्वसनीय अंतराल की गणना में पूरी तरह से ध्यान में रखी गई है। उदाहरण के लिए, नया आर पैकेज brmsऔर फ़ंक्शन brm, lme4बेइज़ियन एक के लिए लगातार मिश्रित मॉडल से बहुत आसान संक्रमण के लिए अनुमति देता है , क्योंकि यह समान सिंटैक्स के पास है।


4

मैं केवल 6 स्तरों के साथ एक यादृच्छिक प्रभाव मॉडल का उपयोग नहीं करूंगा। 6-स्तरीय यादृच्छिक प्रभाव का उपयोग करने वाले मॉडल कभी-कभी कई सांख्यिकीय कार्यक्रमों का उपयोग करके चलाए जा सकते हैं और कभी-कभी निष्पक्ष अनुमान देते हैं, लेकिन:

  1. मुझे लगता है कि सांख्यिकीय समुदाय में एक मनमाना आम सहमति है कि 10-20 न्यूनतम संख्या है। यदि आप अपना शोध प्रकाशित करना चाहते हैं, तो आपको सांख्यिकीय समीक्षा के बिना एक पत्रिका देखने की सलाह दी जाएगी (या काफी परिष्कृत भाषा का उपयोग करके अपने निर्णय को सही ठहराने में सक्षम होना चाहिए)।
  2. इतने कम समूहों के साथ, क्लस्टर संस्करण के बीच खराब अनुमान लगाया जा सकता है। क्लस्टर विचरण के बीच खराब अनुमान आमतौर पर ब्याज के गुणांक के मानक त्रुटि के खराब अनुमान में अनुवाद करता है। (यादृच्छिक प्रभाव मॉडल सैद्धांतिक रूप से अनंत तक जाने वाले समूहों की संख्या पर निर्भर करते हैं)।
  3. अक्सर मॉडल केवल रूपांतरित नहीं होते हैं। क्या आपने अपना मॉडल चलाने की कोशिश की है? मैं प्रति विषय केवल १२-१६ उपायों के साथ आश्चर्यचकित होऊंगा कि मॉडल अभिसरण करते हैं। जब मैंने इस प्रकार का मॉडल प्राप्त करने में कामयाबी हासिल की है, तो मैंने प्रति क्लस्टर सैकड़ों माप लिए हैं।

इस समस्या को क्षेत्र की अधिकांश मानक पाठ्यपुस्तकों में संबोधित किया गया है और आपने उन्हें अपने प्रश्न में संबोधित किया है। मुझे नहीं लगता कि मैं आपको कोई नई जानकारी दे रहा हूं।


क्या इसकी तकनीकी सामग्री से संबंधित कारण के लिए यह मतदान किया गया था?
एन ब्रूवर

आप किस प्रकार के डेटा के साथ काम कर रहे हैं? मुझे यकीन नहीं है कि आप यह सुनकर हैरान हैं कि मॉडल प्रति व्यक्ति 12-16 उपायों के साथ अभिसरण करेगा। मैं परिणामी मॉडल में पूर्वाग्रह पर टिप्पणी नहीं कर सकता, लेकिन मेरे पास lme4मिश्रित मॉडल में अभिसरण के साथ कोई समस्या नहीं है और मैं अक्सर उन्हें ओपी के रूप में समान नमूना आकारों पर चलाता हूं (मैं जीव विज्ञान डेटासेट के साथ भी काम कर रहा हूं)।
आरटीबार्ड

1

मूल प्रश्न के बाद से यह एक लंबा समय रहा है, लेकिन मुझे लगा कि मैं मॉडल चयन के लिए कुछ बिंदु जोड़ सकता हूं।

1 - जब तक मॉडल की पहचान की जाती है (यानी आपके पास पैरामीटर स्पेस में स्वतंत्रता की डिग्री है) आपको मॉडल को फिट करने के लिए TRY करने में सक्षम होना चाहिए। अनुकूलन विधि के आधार पर मॉडल अभिसरण हो सकता है या नहीं। किसी भी मामले में मैं 1 या 2 से अधिक यादृच्छिक प्रभावों को शामिल करने की कोशिश नहीं करूँगा और निश्चित रूप से 1 से अधिक क्रॉस लेवल इंटरैक्शन नहीं। यहाँ प्रस्तुत समस्या के विशिष्ट मामले में अगर हम छिपकली की विशिष्ट विशेषताओं (जैसे आयु, आकार, आदि) और उपचार / माप विशेषताओं के बीच एक बातचीत पर संदेह करते हैं तो समूह आकार 6 सटीक पर्याप्त अनुमान लगाने के लिए पर्याप्त नहीं हो सकता है।

2 - जवाब के एक जोड़े के रूप में, अभिसरण एक मुद्दा हो सकता है। हालाँकि मेरा अनुभव यह है कि माप के मुद्दों के कारण सामाजिक विज्ञान के डेटा में भारी अभिसरण समस्या है, लेकिन जीवन विज्ञान और विशेष रूप से जैव-रासायनिक दोहराया उपायों में बहुत छोटी मानक त्रुटियां हैं। यह सब डेटा जनरेट करने की प्रक्रिया पर निर्भर करता है। सामाजिक और आर्थिक आंकड़ों में हमें अमूर्तता के विभिन्न स्तरों पर काम करना होगा। जैविक और रासायनिक और सबसे निश्चित रूप से खगोलीय डेटा माप त्रुटि में एक समस्या का एक कम है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.