बार-बार रैखिक मिश्रित-प्रभाव मॉडल के लिए लैमर का उपयोग करना


41

संपादित 2: मैंने मूल रूप से सोचा था कि मुझे एक कारक पर दोहराए गए उपायों के साथ दो-कारक एनोवा को चलाने की आवश्यकता है, लेकिन मुझे लगता है कि एक रैखिक मिश्रित-प्रभाव मॉडल मेरे डेटा के लिए बेहतर काम करेगा। मुझे लगता है कि मुझे लगभग पता है कि क्या होने की जरूरत है, लेकिन अभी भी कुछ बिंदुओं से भ्रमित हूं।

जिन प्रयोगों का मुझे विश्लेषण करना है, वे इस प्रकार हैं:

  • कई उपचार समूहों में से एक को विषय सौंपे गए
  • प्रत्येक विषय के माप कई दिनों पर लिए गए थे
  • इसलिए:
    • उपचार के भीतर विषय निहित है
    • उपचार दिन के साथ पार किया जाता है

(प्रत्येक विषय को केवल एक उपचार के लिए सौंपा गया है, और प्रत्येक दिन प्रत्येक विषय पर माप लिया जाता है)

मेरे डेटासेट में निम्नलिखित जानकारी है:

  • विषय = अवरुद्ध कारक (यादृच्छिक कारक)
  • दिन = विषय या दोहराया उपायों के भीतर कारक (निश्चित कारक)
  • उपचार = विषय कारक (निश्चित कारक) के बीच
  • अवलोकन = मापा (निर्भर) चर

अद्यतन ठीक है, इसलिए मैंने जाकर एक सांख्यिकीविद् से बात की, लेकिन वह एसएएस उपयोगकर्ता है। वह सोचता है कि मॉडल होना चाहिए:

उपचार + दिन + विषय (उपचार) + दिन * विषय (उपचार)

स्पष्ट रूप से उनका अंकन आर सिंटैक्स से अलग है, लेकिन इस मॉडल के लिए हिसाब करना चाहिए:

  • उपचार (निश्चित)
  • दिन (निश्चित)
  • उपचार * दिन बातचीत
  • उपचार के भीतर निहित विषय (यादृच्छिक)
  • दिन "उपचार के भीतर विषय" के साथ पार किया (यादृच्छिक)

तो, यह सही वाक्यविन्यास उपयोग करने के लिए है?

m4 <- lmer(Obs~Treatment*Day + (1+Treatment/Subject) + (1+Day*Treatment/Subject), mydata)

मैं इस बात को लेकर विशेष रूप से चिंतित हूं कि क्या दिन "उपचार के भीतर विषय" के साथ पार हुआ है या नहीं। क्या कोई एसएएस से परिचित है, या आश्वस्त है कि वे समझते हैं कि उसके मॉडल में क्या चल रहा है, इस पर टिप्पणी करने में सक्षम है कि क्या आर सिंटैक्स मैचों में मेरा दुखद प्रयास?

यहां मॉडल बनाने और लेखन सिंटैक्स पर मेरे पिछले प्रयास हैं (उत्तर और टिप्पणियों में चर्चा की गई):

m1 <- lmer(Obs ~ Treatment * Day + (1 | Subject), mydata)

मैं इस तथ्य से कैसे निपटता हूं कि उपचार के भीतर विषय निहित है? कैसे m1अलग है:

m2 <- lmer(Obs ~ Treatment * Day + (Treatment|Subject), mydata)
m3 <- lmer(Obs ~ Treatment * Day + (Treatment:Subject), mydata)

और कर रहे हैं m2और m3बराबर (और यदि नहीं, तो क्यों)?

इसके अलावा, अगर मुझे सहसंबंध संरचना (जैसे correlation = corAR1) निर्दिष्ट करना चाहते हैं तो क्या मुझे lme4 के बजाय nlme का उपयोग करने की आवश्यकता है ? दोहराया उपायों के अनुसार , एक कारक पर दोहराया उपायों के साथ दोहराया उपायों के विश्लेषण के लिए, सहसंयोजक संरचना (एक ही विषय के माप के बीच सहसंबंधों की प्रकृति) महत्वपूर्ण है।

जब मैं बार-बार एनोवा को करने की कोशिश कर रहा था, तो मैंने टाइप II एसएस का उपयोग करने का फैसला किया; क्या यह अभी भी प्रासंगिक है, और यदि हां, तो मैं इसे कैसे निर्दिष्ट करूं?

यहाँ एक उदाहरण है कि डेटा कैसा दिखता है:

mydata <- data.frame(
  Subject  = c(13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 29, 30, 31, 32, 33, 
               34, 35, 36, 37, 38, 39, 40, 62, 63, 64, 65, 13, 14, 15, 16, 17, 18, 
               19, 20, 21, 22, 23, 24, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 
               40, 62, 63, 64, 65, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 
               29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 62, 63, 64, 65), 
  Day       = c(rep(c("Day1", "Day3", "Day6"), each=28)), 
  Treatment = c(rep(c("B", "A", "C", "B", "C", "A", "A", "B", "A", "C", "B", "C", 
                      "A", "A", "B", "A", "C", "B", "C", "A", "A"), each = 4)), 
  Obs       = c(6.472687, 7.017110, 6.200715, 6.613928, 6.829968, 7.387583, 7.367293, 
                8.018853, 7.527408, 6.746739, 7.296910, 6.983360, 6.816621, 6.571689, 
                5.911261, 6.954988, 7.624122, 7.669865, 7.676225, 7.263593, 7.704737, 
                7.328716, 7.295610, 5.964180, 6.880814, 6.926342, 6.926342, 7.562293, 
                6.677607, 7.023526, 6.441864, 7.020875, 7.478931, 7.495336, 7.427709, 
                7.633020, 7.382091, 7.359731, 7.285889, 7.496863, 6.632403, 6.171196, 
                6.306012, 7.253833, 7.594852, 6.915225, 7.220147, 7.298227, 7.573612, 
                7.366550, 7.560513, 7.289078, 7.287802, 7.155336, 7.394452, 7.465383, 
                6.976048, 7.222966, 6.584153, 7.013223, 7.569905, 7.459185, 7.504068, 
                7.801867, 7.598728, 7.475841, 7.511873, 7.518384, 6.618589, 5.854754, 
                6.125749, 6.962720, 7.540600, 7.379861, 7.344189, 7.362815, 7.805802, 
                7.764172, 7.789844, 7.616437, NA, NA, NA, NA))

जवाबों:


18

मुझे लगता है कि आपका दृष्टिकोण सही है। मॉडल m1प्रत्येक विषय के लिए एक अलग अवरोधन निर्दिष्ट करता है। मॉडल m2प्रत्येक विषय के लिए एक अलग ढलान जोड़ता है। आपका ढलान दिनों के पार है क्योंकि विषय केवल एक उपचार समूह में भाग लेते हैं। यदि आप मॉडल लिखते हैं, तो m2यह अधिक स्पष्ट है कि आप प्रत्येक विषय के लिए एक अलग अवरोधन और ढलान बनाते हैं

m2 <- lmer(Obs ~ Treatment * Day + (1+Day|Subject), mydata)

यह इसके बराबर है:

m2 <- lmer(Obs ~ Treatment + Day + Treatment:Day + (1+Day|Subject), mydata)

उपचार, दिन और दोनों के बीच बातचीत का मुख्य प्रभाव।

मुझे लगता है कि जब तक आप विषय आईडी को उपचार समूहों में नहीं दोहराते हैं, तब तक आपको घोंसले के शिकार के बारे में चिंता करने की आवश्यकता नहीं है। कौन सा मॉडल सही है, वास्तव में आपके शोध प्रश्न पर निर्भर करता है। क्या यह मानने का कोई कारण है कि उपचार के प्रभाव के अलावा विषयों की ढलान अलग-अलग है? आप दोनों मॉडल चला सकते हैं और उनकी तुलना anova(m1,m2)यह देखने के लिए कर सकते हैं कि डेटा किसी एक का समर्थन करता है या नहीं।

मुझे यकीन नहीं है कि आप मॉडल के साथ क्या व्यक्त करना चाहते हैं m3? घोंसले के शिकार सिंटैक्स एक का उपयोग करता है /, जैसे (1|group/subgroup)

मुझे नहीं लगता है कि इतने कम समय के अंकों के साथ आपको ऑटोक्रेलेशन के बारे में चिंता करने की आवश्यकता है।


यह सही नहीं है। उपचार एक स्तर -2 चर है, यह विषय के भीतर नेस्टेड नहीं किया जा सकता है।
पैट्रिक कूलोम्बे

ऑटोकैरेलेशन और समय बिंदुओं की संख्या के बारे में: मैं केवल इस उदाहरण डेटा में तीन दिखाता हूं, लेकिन मेरे वास्तविक डेटा में 8 अलग-अलग दिनों में अवलोकन होते हैं, इसलिए मुझे लगता है कि यह संभवतः एक मुद्दा होगा। किसी भी विचार कैसे में डाल करने के लिए?
फॉस्फोरेल्ट

1
इसके अलावा, मैं अब घोंसले के शिकार के बारे में काफी उलझन में हूं; है (1 + उपचार | विषय) अलग (1 + उपचार / विषय)? क्या करता है "|" मतलब, सादे अंग्रेजी में? मैंने जो स्पष्टीकरण पढ़ा है, उसे मैं नहीं समझता।
फॉस्फोरेल्ट

नमस्ते। यहां "प्रत्येक विषय के लिए अलग ढलान" क्या है? क्योंकि विषय एक कारक चर है, न कि एक सतत चर।
स्केन

12

मैं आपकी स्वत: संबंधित त्रुटियों के मुद्दे पर टिप्पणी करने के लिए पर्याप्त सहज महसूस नहीं करता (और न ही lme4 बनाम nlme में विभिन्न कार्यान्वयन के बारे में), लेकिन मैं बाकी लोगों से बात कर सकता हूं।

आपका मॉडल m1एक रैंडम-इंटरसेप्ट मॉडल है, जहां आपने उपचार और दिवस के बीच क्रॉस-स्तरीय इंटरैक्शन को शामिल किया है (डे के प्रभाव को उपचार समूहों के बीच भिन्न होने की अनुमति है)। प्रतिभागियों के बीच भिन्न होने के लिए समय पर बदलाव की अनुमति देने के लिए (यानी समय के साथ व्यक्तिगत रूप से अंतर को स्पष्ट रूप से मॉडल करने के लिए), आपको दिन के प्रभाव को यादृच्छिक बनाने के लिए अनुमति देने की भी आवश्यकता है । ऐसा करने के लिए, आप निर्दिष्ट करेंगे:

m2 <- lmer(Obs ~ Day + Treatment + Day:Treatment + (Day | Subject), mydata)

इस मॉडल में:

  • अवरोधन यदि दिन = 0 पर उपचार संदर्भ श्रेणी के लिए अनुमानित स्कोर है
  • डे के लिए गुणांक संदर्भ उपचार श्रेणी के लिए दिनों में प्रत्येक 1-यूनिट वृद्धि के लिए समय के साथ अनुमानित परिवर्तन है
  • उपचार समूहों के लिए दो डमी कोड के लिए गुणांक (स्वचालित रूप से आर द्वारा बनाया गया) प्रत्येक शेष उपचार समूह और दिन = 0 पर संदर्भ श्रेणी के बीच अनुमानित अंतर है।
  • संदर्भ श्रेणी और शेष उपचार समूहों के बीच अनुमानित अंकों पर समय (दिन) के प्रभाव में दो बातचीत की शर्तों के गुणांक में अंतर है।

स्कोर पर दिन के अंतर और प्रभाव दोनों ही यादृच्छिक हैं (प्रत्येक विषय को दिन = 0 पर एक अलग पूर्वानुमानित स्कोर और समय के साथ एक अलग रैखिक परिवर्तन की अनुमति है)। इंटरकॉर्प्स और ढलानों के बीच सहसंयोजक भी मॉडलिंग की जा रही है (उन्हें कोवरी की अनुमति है)।

जैसा कि आप देख सकते हैं, दो डमी चर के लिए गुणांक की व्याख्या दिन = 0 पर सशर्त है। वे आपको बताएंगे कि क्या संदर्भ श्रेणी के लिए दिन = 0 पर अनुमानित स्कोर दो शेष उपचार समूहों से काफी अलग है। इसलिए, जहाँ आप अपने दिन चर को केन्द्रित करने का निर्णय लेते हैं, वह महत्वपूर्ण है। यदि आप दिन 1 पर केंद्र करते हैं, तो गुणांक आपको बताते हैं कि क्या दिन 1 पर संदर्भ श्रेणी के लिए अनुमानित स्कोर बाकी के दो समूहों के अनुमानित स्कोर से काफी अलग है। इस तरह, आप देख सकते हैं कि क्या समूहों के बीच पहले से मौजूद मतभेद हैं । यदि आप दिन 3 पर केंद्र रखते हैं, तो गुणांक आपको बताता है कि क्या दिन 3 में संदर्भ श्रेणी के लिए अनुमानित स्कोर हैशेष दो समूहों के अनुमानित स्कोर से काफी अलग है। इस तरह, आप देख सकते हैं कि हस्तक्षेप के अंत में समूहों के बीच मतभेद हैं या नहीं

अंत में, ध्यान दें कि उपचार के भीतर विषय निहित नहीं हैं । आपके तीन उपचार उन स्तरों की आबादी के यादृच्छिक स्तर नहीं हैं, जिनके लिए आप अपने परिणामों को सामान्य बनाना चाहते हैं - बल्कि, जैसा कि आपने उल्लेख किया है, आपके स्तर तय हो गए हैं, और आप केवल इन स्तरों पर अपने परिणामों को सामान्य करना चाहते हैं। (उल्लेख नहीं करने के लिए, आपको मल्टीलेवल मॉडलिंग का उपयोग नहीं करना चाहिए, यदि आपके पास केवल 3 ऊपरी-स्तरीय इकाइयाँ हैं, तो Maas & Hox; 2005 को देखें।) इसके बजाय, उपचार एक स्तर -2 भविष्यवक्ता है, यानी एक भविष्यवक्ता जो दिन भर में एक ही मूल्य लेता है। (स्तर -1 इकाइयाँ) प्रत्येक विषय के लिए। इसलिए, यह केवल आपके मॉडल में एक भविष्यवक्ता के रूप में शामिल है।

संदर्भ:
मास, सीजेएम, और होक्स, जेजे (2005)। मल्टीलेवल मॉडलिंग के लिए पर्याप्त नमूना आकार। कार्यप्रणाली: व्यवहार और सामाजिक विज्ञान के लिए अनुसंधान विधियों के यूरोपीय जर्नल , 1 , 86-92।


1
यह lmer द्वारा अनुमानित नहीं है क्योंकि अवलोकन की संख्या <= संख्या यादृच्छिक प्रभाव और अवशिष्ट विचरण संभवत: अज्ञात है।
शुगंग

उत्तर में सूत्र संरचना सही है। @ शुगुंग द्वारा उल्लिखित त्रुटि को ओवरराइड करने के लिए, आपको जोड़ना होगा ...,control=lmerControl(check.nobs.vs.nRE="ignore")। बेन बोल्कर द्वारा आगे की व्याख्या के लिए इस लिंक को देखें ।
NiuBiBang 2

अच्छी व्याख्या। क्या आप कृपया थोड़ा और समझा सकते हैं कि क्यों "विषय उपचार के भीतर नहीं होते हैं" और आप एक + (उपचार | विषय) त्रुटि शब्द क्यों नहीं बनाते हैं और क्यों नहीं (1 | विषय) या यहां तक ​​कि (1) उपचार * दिवस )?
स्कैन

तकनीकी रूप से आप उपचार के भीतर विषयों को घोंसला बना सकते हैं, हालांकि यदि भविष्यवक्ता वह है जो वही होगा जो आप कितनी बार प्रयोग करते हैं, तो यह एक निश्चित (यादृच्छिक नहीं) प्रभाव होना चाहिए। कारक जो हर बार आपके द्वारा प्रयोग किए जाने पर अलग-अलग होंगे , जैसे कि विषय की अलग-अलग विशेषताएँ - जैसे कि उनका शुरुआती मूल्य या समय के साथ उपचार में बदलाव के लिए उनकी निष्क्रिय प्रतिक्रिया - यादृच्छिक प्रभाव हैं। (1 + Day|Subject)एक यादृच्छिक ढलान मॉडल का मतलब है, जो प्रत्येक विषय के प्रारंभिक मूल्य (अवरोधन) और परिणाम के परिवर्तन की दर को अलग-अलग होने की अनुमति देता है।
llewmills
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.