मैं कैसे परीक्षण कर सकता हूं कि क्या कोई यादृच्छिक प्रभाव महत्वपूर्ण है?


34

मैं समझने की कोशिश कर रहा हूं कि कब एक यादृच्छिक प्रभाव का उपयोग करना है और कब यह अनावश्यक है। Ive को अंगूठे का एक नियम बताया गया है यदि आपके पास 4 या अधिक समूह / व्यक्ति हैं जो मैं करता हूं (15 व्यक्तिगत स्वर)। उनमें से कुछ मूस का प्रयोग 2 या 3 बार कुल 29 परीक्षणों के लिए किया गया था। मैं जानना चाहता हूं कि क्या वे अलग-अलग व्यवहार करते हैं जब वे नहीं की तुलना में अधिक जोखिम वाले परिदृश्य में होते हैं। इसलिए, मैंने सोचा कि मैं व्यक्ति को एक यादृच्छिक प्रभाव के रूप में स्थापित करूँगा। हालाँकि, अब मुझे बताया जा रहा है कि किसी व्यक्ति को यादृच्छिक प्रभाव के रूप में शामिल करने की आवश्यकता नहीं है क्योंकि उनकी प्रतिक्रिया में बहुत अधिक भिन्नता नहीं है। मैं यह पता नहीं लगा सकता कि कैसे परीक्षण करना है अगर किसी व्यक्ति को यादृच्छिक प्रभाव के रूप में सेट करते समय वास्तव में कुछ है। शायद एक प्रारंभिक प्रश्न है: यदि व्यक्ति एक अच्छा व्याख्यात्मक चर है, तो यह पता लगाने के लिए कि मैं कौन सा परीक्षण / निदान कर सकता हूं और क्या इसका एक निश्चित प्रभाव होना चाहिए - qq भूखंड? histograms? तितर बितर भूखंडों? और मैं उन पैटर्न में क्या देखूंगा।

मैंने एक यादृच्छिक प्रभाव के रूप में और इसके बिना मॉडल को चलाया, लेकिन फिर मैंने http://glmm.wikidot.com/faq को पढ़ा :

इसी lm फिट, या glmer / glm के साथ lmer मॉडल की तुलना न करें; लॉग-लाइकहुड कम्यूनिकेट नहीं हैं (यानी, वे अलग-अलग योगात्मक शब्द शामिल करते हैं)

और यहाँ मुझे लगता है इसका मतलब है कि आप किसी मॉडल के बीच यादृच्छिक प्रभाव या बिना तुलना नहीं कर सकते। लेकिन मैं वास्तव में नहीं जानता कि मुझे उनके बीच क्या तुलना करनी चाहिए।

रैंडम प्रभाव वाले मेरे मॉडल में मैं आउटपुट को देखने की कोशिश कर रहा था कि आरई के पास किस तरह के साक्ष्य या महत्व हैं

lmer(Velocity ~ D.CPC.min + FD.CPC + (1|ID), REML = FALSE, family = gaussian, data = tv)

Linear mixed model fit by maximum likelihood 
Formula: Velocity ~ D.CPC.min + FD.CPC + (1 | ID) 
   Data: tv 
    AIC    BIC logLik deviance REMLdev
 -13.92 -7.087  11.96   -23.92   15.39
Random effects:
 Groups   Name        Variance Std.Dev.
 ID       (Intercept) 0.00000  0.00000 
 Residual             0.02566  0.16019 
Number of obs: 29, groups: ID, 15

Fixed effects:
              Estimate Std. Error t value
(Intercept)  3.287e-01  5.070e-02   6.483
D.CPC.min   -1.539e-03  3.546e-04  -4.341
FD.CPC       1.153e-04  1.789e-05   6.446

Correlation of Fixed Effects:
          (Intr) D.CPC.
D.CPC.min -0.010       
FD.CPC    -0.724 -0.437

आप देखते हैं कि मेरा विचरण और SD अलग-अलग आईडी से यादृच्छिक प्रभाव के रूप में = 0. यह कैसे संभव है? 0 का क्या अर्थ है? क्या वह सही है? फिर मेरे दोस्त ने कहा कि "चूंकि आईडी का उपयोग करने से कोई बदलाव नहीं होता है क्योंकि यादृच्छिक प्रभाव अनावश्यक है" सही है? तो, क्या मैं इसे एक निश्चित प्रभाव के रूप में उपयोग करूंगा? लेकिन यह तथ्य नहीं है कि बहुत कम भिन्नता है, इसका मतलब यह है कि यह हमें बहुत कुछ बताने वाला नहीं है?


एक यादृच्छिक प्रभाव के सटीक 0 संस्करण को प्राप्त करने के संबंध में, देखें आँकड़े ।stackexchange.com/questions/115090
अमीबा का कहना है कि

जवाबों:


21

अनुमान, IDका विचरण = 0, इंगित करता है कि मॉडल में यादृच्छिक प्रभावों को शामिल करने के लिए बीच-समूह परिवर्तनशीलता का स्तर वारंट के लिए पर्याप्त नहीं है; अर्थात। आपका मॉडल पतित है।

जैसा कि आप अपने आप को सही ढंग से पहचानते हैं: सबसे शायद, हाँ; IDएक यादृच्छिक प्रभाव अनावश्यक है। इस धारणा को परखने के लिए कुछ चीजें बसंत

  1. आप REML = Fयादृच्छिक प्रभावों के साथ और बिना मॉडल के बीच AIC (या सामान्य रूप से अपने पसंदीदा IC) की तुलना कर सकते हैं (देखें )।
  2. आप anova()दो मॉडलों के आउटपुट को देखेंगे ।
  3. आप अपने मूल मॉडल द्वारा परिभाषित पीछे के वितरण का उपयोग करके पैरामीट्रिक बूटस्ट्रैप कर सकते हैं।

ध्यान रखें कि आपके पास विकल्प 1 और 2 में एक समस्या है: आप किसी चीज़ के लिए जाँच कर रहे हैं कि यह पैरामीटर स्पेस की सीमाओं पर है इसलिए वास्तव में वे तकनीकी रूप से ध्वनि नहीं हैं। यह कहने के बाद, मुझे नहीं लगता कि आप उनसे गलत जानकारी प्राप्त करेंगे और बहुत से लोग उनका उपयोग करते हैं (उदाहरण के लिए, डगलस बेट्स, जो कि lme4 के डेवलपर्स में से एक है, अपनी पुस्तक में उनका उपयोग करता है, लेकिन स्पष्ट रूप से पैरामीटर मूल्यों के बारे में इस चेतावनी का परीक्षण करता है। संभावित मूल्यों के सेट की सीमा पर)। च्वाइस 3, 3 का सबसे थकाऊ है, लेकिन वास्तव में आपको सबसे अच्छा विचार देता है कि वास्तव में क्या चल रहा है। कुछ लोगों को गैर-पैरामीट्रिक बूटस्ट्रैप का उपयोग करने के लिए भी लुभाया जाता है, लेकिन मुझे लगता है कि इस तथ्य को देखते हुए कि आप पैरामीट्रिक धारणाएं बना रहे हैं, जो आपके साथ शुरू होने के साथ ही उनका उपयोग कर सकते हैं।


6
RLRsim पैकेज सिमुलेशन-आधारित संभावना अनुपात परीक्षणों का उपयोग करके यादृच्छिक प्रभावों का परीक्षण करने के लिए वास्तव में सुविधाजनक तरीका है।
atrichornis

@atrichornis: +1 दिलचस्प पैकेज; मुझे इसकी जानकारी नहीं थी। मैं बस इसके कोड पर एक नज़र था, काफी सीधा मैं कह सकता हूँ। काश वे इसे शामिल करते (या ऐसा कुछ) lme4विशेष रूप से अब mcmcsamp()टूट जाते हैं और लोगों को कुछ सभ्य पी-मूल्यों आदि को बाहर निकालने के लिए केवल अपने स्वयं के तदर्थ बूटस्ट्रैप कार्यान्वयन के साथ छोड़ दिया जाता है।
us --r11852 का कहना है कि

सच है, मिश्रित मॉडल आर के बहुत सारे नहीं हैं। सन्निकटन और वर्कअराउंड के बहुत सारे ... हालांकि मैं एसएएस आदि को इकट्ठा करता हूं बस कुछ अनिश्चितताओं पर चमक? बेन बोल्कर दोनों पैकेजों पर एक उप-विधायक हैं, उनके पास इसे शामिल नहीं करने के अपने कारण हो सकते हैं। शायद समय!
एट्रिचोर्निस

4
पैरामीटर स्पेस की सीमा पर बूटस्ट्रैप में मुद्दों और समस्याओं का अपना सेट होता है जिससे असंगति होती है । बूटस्ट्रैप एक रामबाण नहीं है, और इसे हल्के ढंग से बैग में नहीं फेंकना चाहिए यह मानकर कि यह सब कुछ हल करेगा।
StasK

2
देख लेना, तर्क बहुत सूक्ष्म है। जहां तक ​​मैं याद कर सकता हूं, यह इस तथ्य से उबलता है कि आप एक वितरण से बूटस्ट्रैप कर रहे हैं जो अशक्त से अलग है; और सीमा पर प्राप्त गैर-मानक वितरण को देखते हुए, नियमितता की शर्तों का उल्लंघन किया जाता है, और बूटस्ट्रैप वितरण लक्ष्य में परिवर्तित नहीं होता है। मुझे लगता है कि गैर-पैरामीट्रिक बूटस्ट्रैप का अभी भी अवशेषों के समूह साधनों को निकालकर यहां निर्माण किया जा सकता है। हालांकि, समूहों के बीच टिप्पणियों की स्वतंत्रता के उल्लंघन के साथ, जटिलताओं की एक और परत उत्पन्न हो सकती है।
StasK

3

मुझे यकीन नहीं है कि मैं जिस दृष्टिकोण का सुझाव देने जा रहा हूं वह उचित है, इसलिए जो लोग इस विषय के बारे में अधिक जानते हैं, वे मुझे सही कर सकते हैं यदि मैं गलत हूं।

मेरा प्रस्ताव आपके डेटा में एक अतिरिक्त कॉलम बनाना है जिसका मूल्य 1 है:

IDconst <- factor(rep(1, each = length(tv$Velocity)))

फिर, आप एक मॉडल बना सकते हैं जो इस कॉलम को आपके यादृच्छिक प्रभाव के रूप में उपयोग करता है:

fm1 <- lmer(Velocity ~ D.CPC.min + FD.CPC + (1|IDconst), 
  REML = FALSE, family = gaussian, data = tv)

इस बिंदु पर, आप तुलना कर सकते हैं (AIC) यादृच्छिक प्रभाव के साथ अपने मूल मॉडल ID(इसे कॉल fm0) नया मॉडल है कि खाते में नहीं ले करता है के साथ IDके बाद से IDconstअपने सभी डेटा के लिए ही है।

anova(fm0,fm1)

अद्यतन करें

user11852 एक उदाहरण के लिए पूछ रहा था, क्योंकि उसकी राय में उपरोक्त दृष्टिकोण भी निष्पादित नहीं करेगा। इसके विपरीत, मैं दिखा सकता हूं कि दृष्टिकोण काम करता है (कम से कम lme4_0.999999-0उस समय जो मैं वर्तमान में उपयोग कर रहा हूं)।

set.seed(101)
dataset <- expand.grid(id = factor(seq_len(10)), fac1 = factor(c("A", "B"),
  levels = c("A", "B")), trial = seq_len(10))
dataset$value <- rnorm(nrow(dataset), sd = 0.5) +
      with(dataset, rnorm(length(levels(id)), sd = 0.5)[id] +
      ifelse(fac1 == "B", 1.0, 0)) + rnorm(1,.5)
    dataset$idconst <- factor(rep(1, each = length(dataset$value)))

library(lme4)
fm0 <- lmer(value~fac1+(1|id), data = dataset)
fm1 <- lmer(value~fac1+(1|idconst), data = dataset)

anova(fm1,fm0)

आउटपुट:

  Data: dataset
  Models:
  fm1: value ~ fac1 + (1 | idconst)
  fm0: value ~ fac1 + (1 | id)

      Df    AIC    BIC  logLik  Chisq Chi Df Pr(>Chisq)
  fm1  4 370.72 383.92 -181.36                      
  fm0  4 309.79 322.98 -150.89 60.936      0  < 2.2e-16 ***

इस अंतिम परीक्षण के अनुसार, हमें यादृच्छिक प्रभाव रखना चाहिए क्योंकि fm0मॉडल में एआईसी के साथ-साथ सबसे कम एआईसी भी है।

अपडेट २

वैसे, यह वही दृष्टिकोण 213-214 पृष्ठों पर एनडब्ल्यू गैल्वे द्वारा 'इंट्रोडक्शन टू मिक्स्ड मॉडलिंग: बियॉन्ड रिग्रेशन एंड एनालिसिस ऑफ वेरिएंस' का प्रस्ताव है।


क्या आपने अपने विचार का परीक्षण किया है? कृपया मुझे गलत साबित करें लेकिन मुझे लगता है कि आपके विचार पर अमल नहीं होगा। यदि IDconstआपके सभी डेटा के लिए समान है तो आपके पास कोई समूहीकरण नहीं है। आपको कम से कम एक नमूना स्तर रखने के लिए एक समूहन कारक की आवश्यकता होती है और जिस तरह से आपने मॉडल को सेट किया है, उसमें कोई भी नहीं है। मैं शायद "यादृच्छिक समूह" का उपयोग करने के औचित्य पर विश्वास कर सकता था, लेकिन यह एक अलग गेंद-खेल है। कुछ डमी डेटा के साथ अपने दृष्टिकोण का परीक्षण करें। मुझे पूरा विश्वास है कि आपका प्रस्तावित सेटअप lmer()नहीं चलेगा। (मैं का उपयोग करें lme4_0.99999911-1)
usεr11852

@ user11852 कृपया, मेरा अपडेट देखें और हमें बताएं कि क्या यह दृष्टिकोण भी साथ काम करता है lme4_0.99999911-1
VLC

जेड

3
हां, मैंने वही किया जो आप सुझाते हैं; यह काम / गणना नहीं करेगा। Error in lFormula(formula = value ~ fac1 + (1 | idconst), data = dataset) : grouping factors must have at least 1 sampled level। और जैसा कि मैंने कहा, वैचारिक रूप से यह गलत है। यह कुछ नंबर देने के लिए सॉफ़्टवेयर को रौंदने की बात नहीं है, अगर आप इसे उचित कहें तो यह एक मामला है। आपके पास उस मॉडल की तुलना करने के लिए एक दूसरा मिश्रित मॉडल नहीं है, तो उस मॉडल में यादृच्छिक प्रभाव एक स्थिर निर्माण है। आप इसे अलग कर सकते हैं और इसके बजाय एक रेखीय मॉडल आज़मा सकते हैं।
us --r11852 का कहना है कि

1
एक एकल समूह यादृच्छिक चर को परिभाषित करते हुए अद्यतन करें lme4। यदि आप विकल्प सेट करते हैं तो यह किया जा सकता है control=lmerControl(check.nlev.gtr.1="ignore"):। बेन बोल्कर ने इसका उल्लेख यहां किया है: github.com/lme4/lme4/issues/411
रॉबिन ब्यूमोंट

1

मैं अधिक 'प्रारंभिक' प्रश्न का उत्तर देना चाहूंगा।

यदि आपको कुछ कारकों के कारण आश्रित चर के बीच विचरण में किसी भी प्रकार की विविधता पर संदेह है, तो आपको आगे बढ़ना चाहिए और तितर बितर और बॉक्स भूखंडों का उपयोग करके डेटा को प्लॉट करना चाहिए। जांच करने के लिए कुछ सामान्य पैटर्न, मैंने इस सूची को वेब पर विभिन्न स्रोतों से नीचे रखा है।

विषमलैंगिकता पैटर्न

इसके अलावा, कारक / उपचार समूहों द्वारा अपने आश्रित चर को प्लॉट करने के लिए देखें कि क्या निरंतर विचरण है। यदि नहीं, तो आप यादृच्छिक प्रभावों या भारित प्रतिगमनों का पता लगाना चाहते हैं। उदाहरण के लिए। नीचे दिया गया यह चार्ट मेरे उपचार समूहों में फ़नल के आकार के विचरण का एक उदाहरण है। इसलिए मैं यादृच्छिक प्रभावों पर जाना और ढलान और अवरोधों पर प्रभावों का परीक्षण करना चुनता हूं।

हेटरोस्केडैसिटी की जांच के लिए बॉक्सप्लॉट

यहां से, ऊपर दिए गए उत्तर आपके मुख्य प्रश्न को पूरा करते हैं। ऐसे परीक्षण भी हैं जो हेटेरोसेडासिटी के लिए जांच करते हैं, ऐसा ही एक यहां है - https://dergipark.org.tr/download/article-file/94971 । लेकिन मुझे यकीन नहीं है कि समूह स्तर की विषमलैंगिकता का पता लगाने के लिए कोई भी परीक्षण मौजूद है।


कृपया ओपी के प्रश्न के उत्तर प्रदान करने के लिए केवल "आपका उत्तर" फ़ील्ड का उपयोग करें। CV एक सख्त Q & A साइट है, चर्चा मंच नहीं है। आपकी पोस्ट का बाद वाला, बोल्ड भाग एक नया प्रश्न है, इस प्रश्न का उत्तर नहीं। यदि आपके पास कोई नया प्रश्न है, ASK QUESTIONतो शीर्ष पर ग्रे पर क्लिक करें और वहां पूछें। चूंकि आप यहां नए हैं, इसलिए आप हमारे दौरे को ले सकते हैं , जिसमें नए उपयोगकर्ताओं के लिए जानकारी है।
गंग -
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.