मिश्रित प्रभाव मॉडल में सभी संभावनाओं को शामिल किए जाने पर यादृच्छिक प्रभाव बनाम फिक्स्ड प्रभाव


15

एक मिश्रित प्रभाव मॉडल में एक पैरामीटर का अनुमान लगाने के लिए एक निश्चित प्रभाव का उपयोग करने के लिए सिफारिश की जाती है यदि सभी संभावित स्तर शामिल हैं (जैसे, दोनों पुरुष और महिलाएं)। यह एक चर के लिए खाते में एक यादृच्छिक प्रभाव का उपयोग करने के लिए आगे की सिफारिश की जाती है यदि शामिल स्तर आबादी से बस एक यादृच्छिक नमूना हैं (संभव रोगियों के ब्रह्मांड से नामांकित मरीज) और आप साधनों के बजाय जनसंख्या के मतलब और भिन्नता का अनुमान लगाना चाहते हैं। व्यक्तिगत कारक स्तरों का।

यदि आप तार्किक रूप से इस तरह से हमेशा एक निश्चित प्रभाव का उपयोग करने के लिए बाध्य हैं, तो मुझे आश्चर्य हो रहा है। एक अध्ययन पर विचार करें कि विकास के माध्यम से पैर / जूते का आकार कैसे बदलता है और यह कहना, ऊंचाई, वजन और उम्र से संबंधित है। Sideस्पष्ट रूप से किसी भी तरह से इस तथ्य को ध्यान में रखते हुए मॉडल में शामिल किया जाना चाहिए कि वर्षों से माप किसी दिए गए पैर के भीतर घोंसले से मुक्त हैं और स्वतंत्र नहीं हैं। इसके अलावा, दाएं और बाएं सभी संभावनाएं हैं जो मौजूद हो सकती हैं। इसके अलावा, यह बहुत सही हो सकता है कि किसी दिए गए प्रतिभागी के लिए उनका दायां पैर उनके बाएं से बड़ा (या छोटा) हो। हालाँकि, पैर का आकार सभी लोगों के लिए पैरों के बीच कुछ भिन्न होता है, लेकिन यह मानने का कोई कारण नहीं है कि दाएं पैर औसतन बाएं पैरों से बड़े होंगे। यदि वे आपके नमूने में हैं, तो संभवतः यह आपके नमूने में लोगों के आनुवांशिकी के बारे में कुछ के कारण है, बजाय दाएं-पैर के नेस के लिए कुछ आंतरिक। अंत में, एक उपद्रव पैरामीटर की तरह लगता है, न कि कुछ जिसकी आप वास्तव में परवाह करते हैं। side

मुझे ध्यान दें कि मैंने यह उदाहरण दिया है। यह किसी भी अच्छा नहीं हो सकता है; यह सिर्फ विचार भर पाने के लिए है। मुझे पता है कि एक बड़ा दायाँ पैर और एक छोटा बायाँ पैर पेलियोलिथिक में जीवित रहने के लिए आवश्यक था।

इस तरह के मामले में, यह होगा (अधिक / कम / कोई हो) को शामिल करने की भावना एक यादृच्छिक प्रभाव के रूप में मॉडल में e? यहां एक निश्चित बनाम यादृच्छिक प्रभाव का उपयोग करने के पेशेवरों और विपक्ष क्या होंगे? side


आप एक यादृच्छिक कारक के रूप में पक्ष का इलाज क्यों करना चाहेंगे, जो कारक के दो और केवल दो स्तर हैं? आपकी समस्या सेटिंग में यादृच्छिकता कहाँ से आती है?
आरोन ज़ेंग

@AaronZeng, मेरे उदाहरण की गुणवत्ता को अलग करता है, यह मेरा प्रश्न है। यदि आपके पास सभी संभावित स्तर हैं, तो क्या यादृच्छिक प्रभावों के साथ स्तरों का प्रतिनिधित्व करने का कोई कारण है। क्या होगा यदि प्रश्न के कारक में> 2 स्तर हों?
गूँग - मोनिका

1
@ मैं सिर्फ इस धागे पर वापस आया - किसी भी उत्तर में मदद मिली? यदि नहीं - तो आपको और क्या जानने में दिलचस्पी है? हो सकता है कि आपके पास अपना जवाब हो (यदि हाँ, तो मुझे इस मुद्दे के बारे में अधिक जानने में दिलचस्पी होगी!)।
टिम

2
मुझे यहाँ वापस आए हुए, @Tim हुए एक लंबा समय हो गया है। मैं दोनों जवाबों की सराहना करता हूं (मैंने उन्हें उखाड़ फेंका), लेकिन वे वह नहीं हैं जो मैं ढूंढ रहा था (शायद एक स्पष्ट रूप से स्पष्ट प्रश्न कथन के कारण)। मैंने कुछ सामानों से जवाब देने के बारे में सोचा है कि बेन बोल्कर ने विभिन्न स्थानों पर पोस्ट किया है, लेकिन यह थोड़ा काम होगा और मैंने वास्तव में कभी ऐसा नहीं किया है। यह अभी भी कुछ है जो मुझे करना चाहिए, हालांकि। कुहनी मारने के लिए धन्यवाद।
गूँग - मोनिका

जवाबों:


13

"निश्चित" और "यादृच्छिक" प्रभावों के साथ सामान्य समस्या यह है कि वे सुसंगत तरीके से परिभाषित नहीं होते हैं। एंड्रयू जेलमैन उनमें से कई उद्धरण :

(1) निश्चित प्रभाव व्यक्तियों पर निरंतर होते हैं, और यादृच्छिक प्रभाव भिन्न होते हैं। उदाहरण के लिए, एक विकास अध्ययन में, यादृच्छिक के साथ एक मॉडल और निश्चित ढलान b को अलग-अलग व्यक्तियों i , या मॉडल y i t = a i + b t के समानांतर लाइनों से मेल खाता है।aibiyit=ai+bt । क्रेफ्ट और डी लीउव (1998) इस प्रकार निश्चित और यादृच्छिक गुणांक के बीच अंतर करते हैं।

(2) प्रभाव तय हो जाते हैं यदि वे अंतर्निहित जनसंख्या में रुचि रखते हैं तो वे खुद में दिलचस्प या यादृच्छिक हैं। Searle, Casella, और McCulloch (1992, धारा 1.4) गहराई में इस अंतर का पता लगाते हैं।

(३) “जब एक नमूना आबादी को समाप्त कर देता है, तो संबंधित चर निश्चित हो जाता है; जब नमूना जनसंख्या का एक छोटा (यानी, नगण्य) हिस्सा होता है, तो संबंधित चर यादृच्छिक होता है। "(ग्रीन और तुक, 1960)

(४) "यदि किसी प्रभाव को यादृच्छिक चर का वास्तविक मूल्य माना जाता है, तो इसे यादृच्छिक प्रभाव कहा जाता है।" (लोमोटे, 1983)

(5) निश्चित प्रभावों का अनुमान है कि कम से कम वर्गों (या, अधिक सामान्यतः, अधिकतम संभावना) का उपयोग करके और यादृच्छिक प्रभावों को संकोचन (रॉबिन्सन, 1991 की शब्दावली में "रैखिक निष्पक्ष भविष्यवाणी") के साथ अनुमानित किया जाता है। यह परिभाषा बहुस्तरीय मॉडलिंग साहित्य (उदाहरण के लिए, स्निजर्स और बॉस्कर, 1999, धारा 4.2) और अर्थमिति में मानक है।

और नोटिस कि वे सुसंगत नहीं हैं । अपनी पुस्तक डेटा विश्लेषण में रिग्रेशन और मल्टीलेवल / पदानुक्रमित मॉडल का उपयोग करते हुए वह आम तौर पर उन शर्तों का उपयोग करने से बचता है और अपने काम में वह समूहों या अवधारणाओं और ढलानों के बीच तय या अलग होने पर ध्यान केंद्रित करता है क्योंकि

फिक्स्ड प्रभाव यादृच्छिक प्रभाव के विशेष मामलों में, जिसमें उच्च स्तर के विचरण (मॉडल (1.1 में), यह होगा के रूप में देखी जा सकती है ) पर सेट है 0 या । इसलिए, हमारे ढांचे में, सभी प्रतिगमन पैरामीटर "यादृच्छिक" हैं, और "बहुस्तरीय" शब्द सभी में शामिल है।σα20

बायेसियन ढांचे के साथ यह विशेष रूप से सच है - आमतौर पर मिश्रित मॉडल के लिए उपयोग किया जाता है - जहां सभी प्रभाव यादृच्छिक रूप से प्रति हैं। यदि आप बायेसियन सोच रहे हैं, तो आप वास्तव में "निश्चित" प्रभावों और बिंदु अनुमानों से चिंतित नहीं हैं और यादृच्छिक रूप से सभी प्रभावों का इलाज करने में कोई समस्या नहीं है।

जितना अधिक मैं इस विषय पर पढ़ता हूं, उतना ही मैं आश्वस्त हूं कि यह एक वैचारिक चर्चा है कि हम क्या (या कर सकते हैं) अनुमान लगाते हैं और क्या हम केवल भविष्यवाणी कर सकते हैं (यहां मैं आपके स्वयं के उत्तर का भी उल्लेख कर सकता हूं )। यदि आप संभावित परिणामों का एक यादृच्छिक नमूना रखते हैं, तो आप यादृच्छिक प्रभावों का उपयोग करते हैं, इसलिए आप व्यक्तिगत अनुमानों के बारे में चिंतित नहीं हैं और आप जनसंख्या प्रभावों के बारे में परवाह करते हैं, फिर व्यक्तियों। तो आपके प्रश्न का उत्तर इस बात पर भी निर्भर करता है कि आप क्या चाहते हैं, इस बारे में क्या सोचते हैं या आपके डेटा को दिए गए निश्चित प्रभावों का अनुमान लगा सकते हैं । यदि आपके डेटा में सभी संभावित स्तर शामिल हैं तो आप कर सकते हैंनिश्चित प्रभावों का अनुमान लगाएं - साथ ही, आपके उदाहरण की तरह, स्तरों की संख्या छोटी हो सकती है और यह आमतौर पर यादृच्छिक प्रभावों का अनुमान लगाने के लिए अच्छा नहीं होगा और इसके लिए कुछ न्यूनतम आवश्यकताएं हैं

सबसे अच्छा मामला परिदृश्य तर्क

कहें कि आपके पास असीमित मात्रा में डेटा और असीमित कम्प्यूटेशनल शक्ति है। इस मामले में आप तय किए गए हर प्रभाव का अनुमान लगा सकते हैं, क्योंकि निश्चित प्रभाव आपको अधिक लचीलापन देते हैं (हमें व्यक्तिगत प्रभावों की तुलना करने में सक्षम करते हैं)। हालांकि, इस मामले में भी, हममें से अधिकांश लोग हर चीज के लिए निश्चित प्रभावों का उपयोग करने से हिचकते हैं।

उदाहरण के लिए, कल्पना करें कि आप किसी क्षेत्र के स्कूलों के परीक्षा परिणामों को मॉडल करना चाहते हैं और आपके पास क्षेत्र के सभी 100 स्कूलों का डेटा है। इस मामले में आप कर सकते थे खतरा स्कूलों तय रूप में - जब से तुम सभी स्तरों पर डेटा है - लेकिन व्यवहार में आप शायद नहीं बल्कि होगा लगता है यादृच्छिक रूप में उनमें से। ऐसा क्यों है?

  1. एक कारण यह है कि आम तौर पर इस तरह के मामलों में आप व्यक्तिगत स्कूलों के प्रभावों में रुचि नहीं रखते हैं (और उन सभी की तुलना करना कठिन है), बल्कि स्कूलों के बीच एक सामान्य परिवर्तनशीलता है।

  2. यहाँ एक और तर्क मॉडल पार्सिमनी है। आम तौर पर आप "हर संभव प्रभाव" मॉडल में दिलचस्पी नहीं रखते हैं, इसलिए आपके मॉडल में आप कुछ निश्चित प्रभाव शामिल करते हैं जिन्हें आप परिवर्तनशीलता के अन्य संभावित स्रोतों के लिए परीक्षण और नियंत्रण करना चाहते हैं। इससे मिश्रित प्रभाव वाले मॉडल सांख्यिकीय मॉडलिंग के बारे में सोचने के सामान्य तरीके से फिट होते हैं जहां आप कुछ का अनुमान लगाते हैं और अन्य चीजों के लिए नियंत्रण करते हैं। जटिल (बहुस्तरीय या पदानुक्रमित) डेटा के साथ आपको शामिल करने के लिए कई प्रभाव होते हैं, इसलिए आप कुछ को "नियत" और कुछ को "यादृच्छिक" के रूप में उनके लिए नियंत्रित करने के लिए धमकी देते हैं।

  3. इस परिदृश्य में, आप यह भी नहीं सोचेंगे कि प्रत्येक का अपना, अद्वितीय, परिणामों पर प्रभाव है, बल्कि सामान्य रूप से कुछ प्रभाव वाले स्कूलों के बारे में है। इसलिए यह तर्क होगा कि हम मानते हैं कि व्यक्तिगत स्कूलों के अद्वितीय प्रभावों का अनुमान लगाना वास्तव में संभव नहीं है और इसलिए हम उन्हें संभावित स्कूलों के प्रभावों के यादृच्छिक नमूने के रूप में धमकी देते हैं।

मिश्रित प्रभाव मॉडल "सब कुछ तय" और "सब कुछ यादृच्छिक" परिदृश्यों के बीच में हैं। जो डेटा हम सामना करते हैं, वह सब कुछ तय प्रभावों के रूप में अनुमान के बारे में हमारी अपेक्षाओं को कम करता है, इसलिए हम तय करते हैं कि हम किन प्रभावों की तुलना करना चाहते हैं और हम उन प्रभावों को नियंत्रित करना चाहते हैं, या उनके प्रभाव के बारे में सामान्य भावना रखते हैं। यह केवल डेटा के बारे में नहीं है, बल्कि यह भी है कि हम इसे मॉडलिंग करते समय डेटा के बारे में कैसे सोचते हैं।


यहाँ बहुत सारे अच्छे अंक, @ टिम। मैं सोच रहा हूं कि ओपी में गंग का उदाहरण क्या है? मेरे उत्तर के तहत टिप्पणियों में एक लंबी चर्चा हुई थी, लेकिन मुझे लगता है कि अब यह कमोबेश हल हो गई है। यह जानने के लिए अच्छा होगा कि क्या आप सहमत हैं या शायद जो मैंने लिखा है उससे असहमत हैं।
अमीबा का कहना है कि

@amoeba यह एक दिलचस्प जवाब है (मैं पहले से ही +1 कर चुका हूं) और मैं आपकी बात से सहमत हूं। मुझे लगता है कि अनिवार्य रूप से गंग सही है (गेलमैन के समान - जो हमेशा सही होता है :)) कि कोई एकल उत्तर नहीं है। मिश्रित प्रभाव वाले मॉडल को लागू करने के लिए एक विशाल साहित्य और कई तरीके हैं और कोई स्पष्ट अंतर नहीं है। इसके अलावा, ऐसे लोग हैं जो हमेशा डिफ़ॉल्ट रूप से हर चीज के लिए निश्चित प्रभाव का उपयोग करते हैं और ऐसे लोग हैं जो जब भी कर सकते हैं यादृच्छिक प्रभाव का उपयोग करते हैं, यहां तक ​​कि उन मामलों में भी जिन्हें हम आमतौर पर निश्चित प्रभाव के रूप में मानते हैं ... यह भी निर्भर करता है कि आप वास्तव में क्या चाहते हैं। नमूना।
टिम

13

कार्यकारी सारांश

यह वास्तव में अक्सर कहा जाता है कि यदि सभी संभव कारक स्तरों को एक मिश्रित मॉडल में शामिल किया जाता है, तो इस कारक को एक निश्चित प्रभाव के रूप में माना जाना चाहिए। यह आवश्यक नहीं है कि डस्टिनिट रिपोर्ट के लिए यह सच हो:

(1) स्तरों की संख्या बड़ी है, तो यह कर सकते हैं मतलब यादृच्छिक रूप में [पार] कारक के इलाज के लिए।

मैं यहां @Tim और @RobertLong दोनों से सहमत हूं: यदि किसी कारक के पास बड़ी संख्या में स्तर हैं जो सभी मॉडल में शामिल हैं (जैसे कि दुनिया के सभी देश; या एक देश में सभी स्कूल; या शायद पूरी आबादी; विषयों का सर्वेक्षण किया जाता है, आदि), फिर इसे यादृच्छिक मानने में कुछ भी गलत नहीं है --- यह और अधिक प्रशंसनीय हो सकता है, कुछ संकोचन प्रदान कर सकता है, आदि।

lmer(size ~ age + subjectID)                     # fixed effect
lmer(size ~ age + (1|subjectID))                 # random effect

(2) यदि कारक को किसी अन्य यादृच्छिक प्रभाव के भीतर निहित किया जाता है, तो उसे अपने स्तरों की संख्या से स्वतंत्र, यादृच्छिक माना जाना चाहिए।

इस थ्रेड में एक बहुत बड़ा भ्रम था (टिप्पणियों को देखें) क्योंकि अन्य उत्तर केस # 1 के बारे में हैं, लेकिन आपने जो उदाहरण दिया है वह एक अलग स्थिति का उदाहरण है, अर्थात यह केस # 2। यहां केवल दो स्तर हैं (अर्थात "सभी बड़ी संख्या में नहीं!" और वे सभी संभावनाओं को समाप्त करते हैं, लेकिन वे एक और यादृच्छिक प्रभाव के अंदर निहित होते हैं , एक नेस्टेड यादृच्छिक प्रभाव उत्पन्न करते हैं।

lmer(size ~ age + (1|subject) + (1|subject:side)  # side HAS to be random

आपके उदाहरण की विस्तृत चर्चा

आपके काल्पनिक प्रयोग में पक्ष और विषय मानक श्रेणीबद्ध मॉडल उदाहरण में कक्षाओं और स्कूलों से संबंधित हैं। शायद प्रत्येक स्कूल (# 1, # 2, # 3, आदि) में कक्षा ए और वर्ग बी है, और इन दो वर्गों को लगभग समान माना जाता है। आप ए और बी को दो स्तरों के साथ एक निश्चित प्रभाव के रूप में मॉडल नहीं करेंगे; यह एक गलती होगी। लेकिन आप ए और बी को दो अलग-अलग स्तरों के साथ "अलग" (यानी पार नहीं किया गया) यादृच्छिक प्रभाव के रूप में मॉडल नहीं करेंगे; यह भी एक गलती होगी। इसके बजाय, आप स्कूलों के अंदर एक नेस्टेड यादृच्छिक प्रभाव के रूप में कक्षाओं को मॉडल करेंगे ।

यहाँ देखें: क्रूस बनाम नेस्टेड रैंडम इफेक्ट्स: वे कैसे भिन्न होते हैं और कैसे उन्हें lme4 में सही ढंग से निर्दिष्ट किया जाता है?

i=1nj=1,2

Sizeijk=μ+αHeightijk+βWeightijk+γAgeijk+ϵi+ϵij+ϵijk
ϵiN(0,σsubjects2),Random intercept for each subject
ϵijN(0,σsubject-side2),Random int. for side nested in subject
ϵijkN(0,σnoise2),Error term

जैसा कि आपने खुद लिखा है, "यह मानने का कोई कारण नहीं है कि दाएं पैर औसतन बाएं पैर से बड़े होंगे"। तो दाएं या बाएं पैर का कोई "वैश्विक" प्रभाव (न तो निश्चित और न ही यादृच्छिक पार) होना चाहिए; इसके बजाय, प्रत्येक विषय को "एक" पैर और "एक और" पैर होने के बारे में सोचा जा सकता है, और इस परिवर्तनशीलता को हमें मॉडल में शामिल करना चाहिए। इन "एक" और "एक और" पैरों को विषयों के भीतर घोंसला किया जाता है, इसलिए यादृच्छिक प्रभावों को नेस्टेड किया जाता है।

टिप्पणियों के जवाब में अधिक जानकारी। [26 सितंबर]

ऊपर दिए गए मेरे मॉडल में साइड को सब्जेक्ट्स में नेस्टेड रैंडम इफेक्ट के रूप में शामिल किया गया है। यहां @Robert द्वारा सुझाया गया एक वैकल्पिक मॉडल है, जहां साइड एक निश्चित प्रभाव है:

Sizeijk=μ+αHeightijk+βWeightijk+γAgeijk+δSidej+ϵi+ϵijk

I challenge @RobertLong or @gung to explain how this model can take care of the dependencies existing for consecutive measurements of the same Side of the same Subject, i.e. of the dependencies for data points with the same ij combination.

It cannot.

The same is true for @gung's hypothetical model with Side as a crossed random effect:

Sizeijk=μ+αHeightijk+βWeightijk+γAgeijk+ϵi+ϵj+ϵijk

It fails to account for dependencies as well.

Demonstration via a simulation [Oct 2]

Here is a direct demonstration in R.

I generate a toy dataset with five subjects measured on both feet for five consecutive years. The effect of age is linear. Each subject has a random intercept. And each subject has one of the feet (either the left or the right) larger than another one.

set.seed(17)

demo = data.frame(expand.grid(age = 1:5,
                              side=c("Left", "Right"),
                              subject=c("Subject A", "Subject B", "Subject C", "Subject D", "Subject E")))
demo$size = 10 + demo$age + rnorm(nrow(demo))/3

for (s in unique(demo$subject)){
  # adding a random intercept for each subject 
  demo[demo$subject==s,]$size = demo[demo$subject==s,]$size + rnorm(1)*10

  # making the two feet of each subject different     
  for (l in unique(demo$side)){
    demo[demo$subject==s & demo$side==l,]$size = demo[demo$subject==s & demo$side==l,]$size + rnorm(1)*7
  }
}

plot(1:50, demo$size)

Apologies for my awful R skills. Here is how the data look like (each consecutive five dots is one feet of one person measured over the years; each consecutive ten dots are two feet of the same person):

enter image description here

Now we can fit a bunch of models:

require(lme4)
summary(lmer(size ~ age + side + (1|subject), demo))
summary(lmer(size ~ age + (1|side) + (1|subject), demo))
summary(lmer(size ~ age + (1|subject/side), demo))

All models include a fixed effect of age and a random effect of subject, but treat side differently.

  1. Model 1: fixed effect of side. This is @Robert's model. Result: age comes out not significant (t=1.8), residual variance is huge (29.81).

  2. Model 2: crossed random effect of side. This is @gung's "hypothetical" model from OP. Result: age comes out not significant (t=1.4), residual variance is huge (29.81).

  3. Model 3: nested random effect of side. This is my model. Result: age is very significant (t=37, yes, thirty-seven), residual variance is tiny (0.07).

This clearly shows that side should be treated as a nested random effect.

Finally, in the comments @Robert suggested to include the global effect of side as a control variable. We can do it, while keeping the nested random effect:

summary(lmer(size ~ age + side + (1|subject/side), demo))
summary(lmer(size ~ age + (1|side) + (1|subject/side), demo))

These two models do not differe much from #3. Model 4 yields a tiny and insignificant fixed effect of side (t=0.5). Model 5 yields an estimate of side variance equal to exactly zero.


2
I don't really think that, in this example, side meets any of the usual definitions/guidelines of when a factor should be treated as random vs fixed. In particular, making inferences beyond the sampled levels of the factor is meaningless. Moreover, with only 2 levels of the factor, treating it as fixed seems an unambigious and straightforward way to approach the modelling.
Robert Long

Robert, thanks for the reply. Either I am completely confused or I failed to explain properly what I mean. Treating side as a fixed effect means assuming that one of the sides (e.g. Right) is always bigger than the other (Left), by a certain amount. This amount is the same for all people. This is explicitly not what the OP had in mind. He wrote that in some people Right might be larger and in some other people Left. However, we need to account for the side because of correlated errors. Why can't we treat as a nested random effect then? It's exactly like classes within schools.
amoeba says Reinstate Monica

I don't know that it necessarily implies that. What it does say is that, in this sample, there may be a systematic difference between sides (which may or may not be an artifact due to sampling variation). I prefer to think about including it as a fixed effect as "controlling" for non-independence and nothing more - in the same way that we would add a confounder to a model and not even dream to try to interpret it's coefficient.
Robert Long

2
I'm upvoting your answer after further reflection. You raise some really interesting points. I don't have time at the moment to delve into the maths of this. I'd like to find a toy dataset to play with if possible (if you know of one, please let me know)
Robert Long

2
+1, on further reflection, you do seem to be right about the peculiarities of this study. Is the larger point that there isn't a single answer to the fixed vs random effect when all possibilities are included, & each case must be assessed individually, I wonder?
gung - Reinstate Monica

7

To add to the other answers:

I don't think you are logically obliged to always use a fixed effect in the manner described in the OP. Even when the usual definitions/guidelines for when to treat a factor as random are not met, I might be inclined to still model it as random when there are a large number of levels, so that treating the factor as fixed would consume many degrees of freedom and result in a cumbersome and less parsimonious model.


This seems like a reasonable point, & I appreciate that you weren't blinded by my example. I gather from this, & your comment to @amoeba's answer, that "when there are a large number of levels" (vs "with only 2 levels of the factor") seems to be key.
gung - Reinstate Monica

1
+1 because I agree with this point, bit it drives me nuts that I failed to explain my point and that neither you nor @gung see what I meant. Treating the side either as fixed or as a crossed random effect necessarily means assuming that one of the sides (e.g. Right) is always bigger than the other (Left), for all subjects. This is explicitly not what gung wrote in his OP, stating that "there is no reason to believe that right feet will on average be larger than left feet". I still see gung's example as a clear case for nested random effect, in full analogy with classes within schools.
amoeba says Reinstate Monica

@amoeba interesting point but I don't agree. I'll comment in the comments to your answer...
Robert Long

4

If you're talking about the situation where you know all possible levels of a factor of interest, and also have data to estimate the effects, then definitely you don't need to represent levels with random effects.

The reason that you want to set random effect to a factor is because you wish to make inference on the effects of all levels of that factor, which are typically unknown. To make that kind of inference, you impose the assumption that the effects of all levels form a normal distribution in general. But given your problem setting, you can estimates the effects of all levels. Then there is certainly no need to set random effects and impose additional assumption.

It's like the situation that you are able to get all the values of the population (thus you know the true mean), but you are trying to take a large sample from the population and use central limit theorem to approximate the sampling distribution, and then make inference on the true mean.


2
One comment: sometimes you have all levels but still use random effect for them. E.g. you conduct nation-vide study on education and have data on all the schools, but still you'll use random effect for schools rather then using dummies for each school.
Tim
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.