मिश्रित प्रभाव मॉडल का उपयोग कब करें?


11

रैखिक मिश्रित प्रभाव मॉडल डेटा के लिए रैखिक प्रतिगमन मॉडल के विस्तार हैं जिन्हें समूह में एकत्र और संक्षेपित किया जाता है। मुख्य लाभ यह है कि गुणांक एक या एक से अधिक समूह चर के संबंध में भिन्न हो सकते हैं।

हालांकि, मैं मिश्रित प्रभाव वाले मॉडल का उपयोग कब कर रहा हूं ? मैं चरम मामलों के साथ एक खिलौना उदाहरण का उपयोग करके अपने प्रश्नों को विस्तृत करूंगा।

मान लें कि हम जानवरों के लिए ऊंचाई और वजन मॉडल करना चाहते हैं और हम प्रजातियों को समूह चर के रूप में उपयोग करते हैं।

  • यदि विभिन्न समूह / प्रजातियां वास्तव में अलग हैं। एक कुत्ता और हाथी कहो। मुझे लगता है कि मिश्रित प्रभाव मॉडल का उपयोग करने का कोई मतलब नहीं है, हमें प्रत्येक समूह के लिए एक मॉडल बनाना चाहिए।

  • यदि विभिन्न समूह / प्रजातियां वास्तव में समान हैं। मादा कुत्ता कहो और नर कुत्ता। मुझे लगता है कि हम मॉडल में एक श्रेणीगत चर के रूप में लिंग का उपयोग कर सकते हैं।

इसलिए, मुझे लगता है कि हमें मध्य मामलों में मिश्रित प्रभाव मॉडल का उपयोग करना चाहिए? कहते हैं, समूह बिल्ली, कुत्ते, खरगोश हैं, वे समान आकार के जानवर हैं लेकिन अलग-अलग हैं।

क्या मिश्रित प्रभाव वाले मॉडल का उपयोग करने का सुझाव देने के लिए कोई औपचारिक तर्क है, अर्थात, किस प्रकार रेखाओं को खींचना है

  1. प्रत्येक समूह के लिए मॉडल का निर्माण
  2. मिश्रित प्रभाव वाला मॉडल
  3. प्रतिगमन में एक श्रेणीगत चर के रूप में समूह का उपयोग करें

मेरा प्रयास: विधि 1 सबसे "जटिल मॉडल" / स्वतंत्रता की कम डिग्री और विधि 3 सबसे "सरल मॉडल" / स्वतंत्रता की अधिक डिग्री है। और मिश्रित प्रभाव वाला मॉडल बीच में है। हम इस बात पर विचार कर सकते हैं कि बैस वैरिएनस ट्रेड ऑफ के अनुसार हमें कितना डेटा और कितना जटिल डेटा का चयन करना है।


5
इस मंच पर बहुत सारे सूत्र में चर्चा की गई है। क्या आपने कुछ खोजा है? ध्यान दें कि "श्रेणीबद्ध चर" के साथ आपका विकल्प वह है जिसे "निश्चित प्रभाव" कहा जाता है (समूह चर का), जबकि आप "मिश्रित मॉडल का उपयोग करके" का अर्थ "यादृच्छिक प्रभाव" का उपयोग कर रहे हैं। तो आप जो पूछ रहे हैं, वह यह है कि कब तय किया जाए और कब बेतरतीब असर डाला जाए। इस सवाल पर विभिन्न राय हैं, और आप सीवी पर यहां बहुत चर्चा पा सकते हैं। मैं बाद में कुछ लिंक पोस्ट कर सकता हूं।
अमीबा २४'१

इसके अलावा, "अलग मॉडल का निर्माण" और "श्रेणीबद्ध चर का उपयोग" के बीच का अंतर मेरे लिए स्पष्ट नहीं है। activity ~ condition + species + condition*species- यह speciesश्रेणीबद्ध चर के रूप में उपयोग करता है , लेकिन यह पूरी तरह से activity ~ conditionप्रत्येक प्रजाति के लिए एक अलग प्रतिगमन के बराबर है ।
अमीबा २४'१

2
इस धागे की जाँच करें: आंकड़े.stackexchange.com/questions/120964/… , यह सीधे आपके प्रश्न का उत्तर नहीं देता है, लेकिन एक चर्चा प्रदान करता है जो आपके प्रश्न से निकटता से संबंधित है।
टिम

3
ठीक है, क्या आपने शुरू के लिए आंकड़े पढ़े हैं ।stackexchange.com / a / 151800 / 28666 ?
अमीबा २४'१

2
"यदि विभिन्न समूह / प्रजातियां वास्तव में अलग हैं। एक कुत्ते और हाथी को कहें। मुझे लगता है कि मिश्रित प्रभाव मॉडल का उपयोग करने का कोई मतलब नहीं है, हमें प्रत्येक समूह के लिए एक मॉडल का निर्माण करना चाहिए।" यह वास्तव में केवल सच है यदि आप प्रजातियों द्वारा अलग-अलग सभी अन्य विशेषताओं के प्रभावों की अपेक्षा करते हैं। यह ज्यादातर स्थितियों में बहुत उदार है।
मैथ्यू ड्र्यू

जवाबों:


8

मुझे डर है कि मेरे पास बारीक और शायद असंतोषजनक जवाब हो सकता है कि यह शोधकर्ता या डेटा विश्लेषक द्वारा एक व्यक्तिपरक विकल्प है। जैसा कि इस धागे में कहीं और उल्लेख किया गया है, केवल यह कहना पर्याप्त नहीं है कि डेटा में "नेस्टेड संरचना" है। हालांकि, उचित होना, यह है कि बहुस्तरीय मॉडल का उपयोग करने के लिए कितनी किताबें वर्णन करती हैं। उदाहरण के लिए, मैंने अभी-अभी जोप होक्स की पुस्तक मल्टीलेवल एनालिसिस को अपनी बुकशेल्फ़ से निकाला है , जो यह परिभाषा देती है:

एक बहुस्तरीय समस्या एक पदानुक्रमित संरचना वाली जनसंख्या की चिंता करती है।

यहां तक ​​कि एक बहुत अच्छी पाठ्यपुस्तक में, प्रारंभिक परिभाषा परिपत्र प्रतीत होती है। मुझे लगता है कि यह आंशिक रूप से निर्धारित करने की विषयगतता के कारण है कि कब किस तरह के मॉडल (एक बहुस्तरीय मॉडल सहित) का उपयोग किया जाए।

एक अन्य पुस्तक, वेस्ट, वेल्च, और गाल्की की रैखिक मिश्रित मॉडल कहती हैं कि ये मॉडल निम्न हैं:

परिणाम चर जिसमें अवशिष्ट सामान्य रूप से वितरित किए जाते हैं, लेकिन स्वतंत्र नहीं हो सकते हैं या निरंतर विचरण हो सकते हैं। एलएमएम का उपयोग करके उचित रूप से विश्लेषण किया जा सकता है कि डेटा सेट के लिए अग्रणी अध्ययन डिजाइन शामिल हैं (1) संकुल डेटा के साथ अध्ययन, जैसे कक्षाओं में छात्रों, या यादृच्छिक ब्लॉक के साथ प्रयोगात्मक डिजाइन, जैसे कि एक औद्योगिक प्रक्रिया के लिए कच्चे माल के बैच, और (2) अनुदैर्ध्य या दोहराया-माप अध्ययन, जिसमें विषयों को समय के साथ या विभिन्न परिस्थितियों में बार-बार मापा जाता है।

फिंच, बोलिन और केली की मल्टीलेवल मॉडलिंग आर में भी आईआईडी धारणा का उल्लंघन करने और सहसंबद्ध अवशिष्टों के बारे में बात करती है:

बहुस्तरीय मॉडलिंग के संदर्भ में विशेष महत्व का एक नमूना के भीतर व्यक्तिगत टिप्पणियों के लिए स्वतंत्र रूप से वितरित त्रुटि शर्तों की धारणा [मानक प्रतिगमन में] है। इस धारणा का अनिवार्य रूप से मतलब है कि विश्लेषण में स्वतंत्र चर का लेखा-जोखा रखने के बाद आश्रित चर के नमूने में व्यक्तियों के बीच कोई संबंध नहीं होते हैं।

मेरा मानना ​​है कि एक बहुस्तरीय मॉडल समझ में आता है जब यह विश्वास करने का कारण होता है कि अवलोकन जरूरी नहीं कि एक दूसरे से स्वतंत्र हों। इस गैर-स्वतंत्रता के लिए जो भी "क्लस्टर" खाता हो सकता है।

एक स्पष्ट उदाहरण कक्षाओं में बच्चे होंगे - वे सभी एक-दूसरे के साथ बातचीत कर रहे हैं, जिससे उनके परीक्षा स्कोर गैर-स्वतंत्र हो सकते हैं। क्या होगा यदि एक कक्षा में कोई ऐसा व्यक्ति है जो उस प्रश्न को पूछता है जो उस वर्ग में शामिल होने वाली सामग्री को कवर करता है जो अन्य कक्षाओं में शामिल नहीं है? क्या होगा अगर शिक्षक दूसरों की तुलना में कुछ वर्गों के लिए अधिक जागृत है? इस मामले में, डेटा की कुछ गैर-स्वतंत्रता होगी; बहुस्तरीय शब्दों में, हम क्लस्टर (यानी, वर्ग) के कारण आश्रित चर में कुछ विचरण की उम्मीद कर सकते हैं।

एक कुत्ते बनाम हाथी का आपका उदाहरण ब्याज के स्वतंत्र और निर्भर चर पर निर्भर करता है, मुझे लगता है। उदाहरण के लिए, मान लें कि हम पूछ रहे हैं कि क्या गतिविधि के स्तर पर कैफीन का प्रभाव है। चिड़ियाघर के सभी जानवरों को बेतरतीब ढंग से एक कैफीनयुक्त पेय या एक नियंत्रण पेय प्राप्त करने के लिए सौंपा गया है।

यदि हम एक शोधकर्ता हैं जो कैफीन में रुचि रखते हैं, तो हम एक बहुस्तरीय मॉडल निर्दिष्ट कर सकते हैं, क्योंकि हम वास्तव में कैफीन के प्रभाव के बारे में परवाह करते हैं। इस मॉडल के रूप में निर्दिष्ट किया जाएगा:

activity ~ condition + (1+condition|species)

यह विशेष रूप से सहायक है अगर बड़ी संख्या में प्रजातियां हैं जो हम इस परिकल्पना का परीक्षण कर रहे हैं। हालांकि, एक शोधकर्ता कैफीन के प्रजातियों-विशिष्ट प्रभावों में दिलचस्पी ले सकता है। उस स्थिति में, वे एक निश्चित प्रभाव के रूप में प्रजातियों को निर्दिष्ट कर सकते हैं:

activity ~ condition + species + condition*species

यह स्पष्ट रूप से एक समस्या है अगर वहाँ हैं, कहते हैं, 30 प्रजातियों, एक 2 x 30 डिजाइन का निर्माण। हालांकि, आप इन रिश्तों को एक मॉडल के साथ बहुत रचनात्मक बना सकते हैं।

उदाहरण के लिए, कुछ शोधकर्ता मल्टीलेवल मॉडलिंग के और भी व्यापक उपयोग के लिए तर्क दे रहे हैं। जेलमैन, हिल, और याजिमा (2012) का तर्क है कि मल्टीलेवल मॉडलिंग का उपयोग कई तुलनाओं के लिए एक सुधार के रूप में किया जा सकता है - यहां तक ​​कि प्रायोगिक अनुसंधान में भी जहां डेटा की संरचना स्पष्ट रूप से प्रकृति में पदानुक्रमित नहीं है:

कई तुलनाओं की मॉडलिंग करते समय कठिन समस्याएं उत्पन्न होती हैं जिनकी संरचना अधिक होती है। उदाहरण के लिए, मान लें कि हमारे पास पांच परिणाम उपाय, उपचार की तीन किस्में, और दो लिंगों और चार नस्लीय समूहों द्वारा वर्गीकृत उपसमूह हैं। हम इस 2 × 3 × 4 × 5 संरचना को 120 विनिमेय समूहों के रूप में नहीं बनाना चाहेंगे। इन अधिक जटिल परिस्थितियों में भी, हमें लगता है कि बहुस्तरीय मॉडलिंग को करना चाहिए और अंततः शास्त्रीय तुलनात्मक प्रक्रियाओं की जगह लेनी चाहिए।

समस्याओं को विभिन्न तरीकों से मॉडलिंग की जा सकती है, और अस्पष्ट मामलों में, कई दृष्टिकोण आकर्षक लग सकते हैं। मुझे लगता है कि हमारा काम उचित, सूचित दृष्टिकोण का चयन करना है और ऐसा पारदर्शी तरीके से करना है।


5

आप निश्चित रूप से प्रत्येक अलग समूह के लिए एक मॉडल का निर्माण कर सकते हैं, इसमें कुछ भी गलत नहीं है। हालाँकि, आपको बड़े नमूना आकार की आवश्यकता होगी और कई मॉडलों का प्रबंधन करने की आवश्यकता होगी।

मिश्रित मॉडल का उपयोग करके, आप डेटा को एक साथ साझा करते हैं (और साझा करते हैं) और इसके लिए छोटे नमूना आकार की आवश्यकता होती है।

ऐसा करते हुए, हम सांख्यिकीय ताकत साझा कर रहे हैं। यहाँ विचार यह है कि डेटा के एक समूह में हम अच्छी तरह से अनुमान लगा सकते हैं, कुछ ऐसी चीज़ों से हमारी मदद कर सकते हैं जिन्हें हम दूसरे में अच्छी तरह से नहीं समझ सकते हैं।

मिश्रित मॉडल ओवर-सैंपल किए गए समूहों को गलत तरीके से हावी होने से रोकता है।

मेरा कहना है कि यदि आप अंतर्निहित लेटरन पदानुक्रमित संरचना को मॉडल करना चाहते हैं, तो आपको अपने मॉडल में यादृच्छिक प्रभाव जोड़ना चाहिए। अन्यथा, यदि आप अपने मॉडल की व्याख्या में परवाह नहीं करते हैं तो आप इसका उपयोग नहीं करते हैं।

https://www.dropbox.com/s/rzi2rsou6h817zz/Datascience%20Presentation.pdf?dl=0

प्रासंगिक चर्चा देता है। लेखक ने चर्चा की कि वह अलग प्रतिगमन मॉडल क्यों नहीं चलाना चाहता था।

यहां छवि विवरण दर्ज करें


4

मिश्रित प्रभाव वाले मॉडल में, आप अपने मॉडल में यादृच्छिक (त्रुटि) शब्द जोड़ते हैं, इसलिए आप निश्चित और यादृच्छिक प्रभावों को "मिश्रित" करते हैं। इसलिए, मिश्रित प्रभाव वाले मॉडल का उपयोग करने पर विचार करने के लिए एक और दृष्टिकोण, यह देखने के लिए हो सकता है कि "यादृच्छिक प्रभाव" क्या है। इस प्रकार, पहले दिए गए उत्तरों के अलावा, मैं बेट्स (2010) शिक्षाप्रद, धारा 1.1 (esp। पृष्ठ 2) से "निश्चित" और "यादृच्छिक" प्रभावों के बीच अंतर भी पाता हूं ।

एक कोवरिएट के विशेष स्तरों से जुड़े पैरामीटर को कभी-कभी स्तरों के "प्रभाव" कहा जाता है। यदि सहसंयोजक के संभावित स्तरों का समुच्चय नियत और प्रतिलिपि प्रस्तुत करने योग्य है, तो हम निश्चित प्रभाव मापदंडों का उपयोग करके सहसंयोजक का मॉडल बनाते हैं। यदि हमने जो स्तर देखे हैं , वे सभी संभावित स्तरों के सेट से एक यादृच्छिक नमूने का प्रतिनिधित्व करते हैं जो हम मॉडल में यादृच्छिक प्रभावों को शामिल करते हैं। फिक्स्ड-इफेक्ट पैरामीटर और यादृच्छिक प्रभावों के बीच इस अंतर के बारे में ध्यान देने योग्य दो बातें हैं। सबसे पहले, नाम भ्रामक हैं क्योंकि निश्चित और यादृच्छिक के बीच का अंतर उनके साथ जुड़े प्रभावों की संपत्ति की तुलना में श्रेणीबद्ध कोवरिएट के स्तरों की अधिक संपत्ति है।

यह परिभाषा अक्सर देशों, या कक्षाओं जैसे कुछ श्रेणीबद्ध संरचना पर लागू होती है, क्योंकि आपके पास हमेशा देशों या कक्षाओं का "यादृच्छिक" नमूना होता है - सभी संभावित देशों या कक्षाओं से डेटा एकत्र नहीं किया गया है ।

हालाँकि, सेक्स तय है (या कम से कम इलाज किया जा रहा है)। यदि आपके पास पुरुष या महिला व्यक्ति हैं, तो कोई अन्य यौन-स्तर नहीं बचा है (कुछ लिंग-अपवाद हो सकते हैं, लेकिन यह ज्यादातर अनदेखा है)।

या शैक्षिक स्तर कहें: यदि आप पूछते हैं कि क्या लोग निम्न, मध्यम या उच्च शिक्षा के हैं, कोई स्तर नहीं बचा है, इसलिए आपने सभी संभावित शैक्षिक स्तरों का "यादृच्छिक" नमूना नहीं लिया है (इसलिए, यह एक निश्चित प्रभाव है)।


2
+1 डाउन-वोट क्यों? यह यादृच्छिक-प्रभाव मॉडलिंग पर एक अच्छी तरह से सम्मानित सांख्यिकीविद् से उद्धरण है; निम्नलिखित टिप्पणी काफी सीधे-आगे और अच्छी तरह से परिभाषित है ...
us11r11852

3

आप मिश्रित मॉडल का उपयोग करते हैं जब कुछ उचित अनुमान लगाए जा सकते हैं, अध्ययन के डिजाइन के आधार पर, टिप्पणियों और अनुमान के बीच संबंध के स्वभाव के बारे में व्यक्तिगत स्तर या सशर्त प्रभावों पर वांछित है । मिश्रित मॉडल यादृच्छिक प्रभावों की विशिष्टताओं के लिए अनुमति देते हैं, जो सहसंबंध संरचनाओं का एक सुविधाजनक प्रतिनिधित्व है जो डेटा के संग्रह में स्वाभाविक रूप से उत्पन्न होते हैं।

मिश्रित मॉडल का सबसे सामान्य प्रकार एक यादृच्छिक इंटरसेप्ट मॉडल है जो अनुमान लगाता है कि आम स्थिरांक का एक अव्यक्त वितरण 0-माध्य, परिमित विचरण करता है जो कि डेटासेट में पहचाने गए व्यक्तियों के समूहों के भीतर सामान्य वितरण है। यह दृष्टिकोण संभावित रूप से सैकड़ों भ्रमित कारकों के समूह के लिए खाता है, जो समूहों के समूहों या समूहों के बीच भिन्न हैं, लेकिन समूहों के बीच भिन्न हैं।

मिश्रित मॉडल का एक दूसरा सामान्य प्रकार एक यादृच्छिक ढलान मॉडल है, जो यादृच्छिक अंतर मॉडल के समान है, समय-पूर्वसूचक इंटरैक्शन के एक अव्यक्त वितरण का अनुमान लगाता है जो फिर से 0-माध्य से आता है, एक पैनल अध्ययन के भीतर परिमित सामान्य वितरण, या क्लस्टर। टिप्पणियों को संभावित रूप से या एक अनुदैर्ध्य फैशन में मापा जाता है।

सीआर(Y1,Y2)=ρY1,Y2सीआर(Yटी,Yरों)=ρ|टी-रों|Yटी,Yरोंटी,रोंऔर 0 अन्यथा। परिणाम समान नहीं हैं, क्योंकि यादृच्छिक अवरोधन समूहों के भीतर टिप्पणियों को सकारात्मक रूप से जुड़ा होने के लिए मजबूर करता है जो लगभग हमेशा एक उचित धारणा है।

व्यक्तिगत स्तर या सशर्त प्रभाव जनसंख्या स्तर या सीमांत प्रभावों के साथ विपरीत हो सकते हैं। सीमांत प्रभाव एक हस्तक्षेप या स्क्रीनिंग से आबादी में प्रभाव का प्रतिनिधित्व करते हैं। एक उदाहरण के रूप में, मादक द्रव्यों के सेवन के पुनर्वास में अनुपालन बढ़ाने के लिए हस्तक्षेप विभिन्न स्थितियों के लिए भर्ती रोगियों के एक पैनल में 3 महीने से अधिक की उपस्थिति को देख सकता है। उपयोग की अवधि रोगियों के बीच भिन्न हो सकती है और अधिक नशे की प्रवृत्ति और परिहार वाले प्रतिभागियों का उपयोग करके कार्यशाला के अनुपालन का दृढ़ता से अनुमान लगाती है। एक व्यक्तिगत स्तर के विश्लेषण से यह पता चल सकता है कि अध्ययन इस तथ्य के बावजूद प्रभावी है कि अधिक लत वाले प्रतिभागी हस्तक्षेप प्राप्त करने से पहले उपस्थित नहीं हुए थे और हस्तक्षेप प्राप्त करने के बाद भाग नहीं लेते थे।

समय या स्थान में समूहों के बीच समरूपता की अनदेखी के कारण सीमांत प्रभाव कम सटीक अनुमान है। उन्हें सामान्यीकृत आकलन समीकरणों के साथ या मिश्रित मॉडलों को हाशिए पर रखकर अनुमान लगाया जा सकता है।


2
+1, मेरी इच्छा है कि मैं 2 उत्तर स्वीकार कर सकता हूँ! @ मार्क के उत्तर के लिए मेरी टिप्पणी आपके उत्तर पर भी लागू होती है। आपने मुझे यह समझने में मदद की कि हम "समूहों में अवलोकन" को कैसे परिभाषित करते हैं
हैताओ डू

2
@ hxd1011 यह अध्ययन डिजाइन के एक बयान से कड़ाई से आता है। स्तरीकृत नमूनों या दोहराने के उपायों के साथ किसी भी डिजाइन में गैर-स्वतंत्र डेटा होगा। यह सांख्यिकीय परीक्षण के लिए एक मामला नहीं है। रैंडम प्रभाव की रिपोर्टिंग या कम से कम निरीक्षण करना सहसंबंध की सीमा को समझने में मदद कर सकता है, आईसीसी इस तरह के एक उपाय का एक उदाहरण है।
आदमियो २

0

जब डेटा में नेस्टेड या पदानुक्रमित संरचना हो तो मिश्रित-प्रभावों का उपयोग किया जाना चाहिए। यह वास्तव में माप की स्वतंत्रता की धारणा का उल्लंघन करता है, क्योंकि एक ही समूह / स्तर के भीतर सभी माप सहसंबद्ध होते हैं। के मामले में

"यदि विभिन्न समूह / प्रजातियां वास्तव में समान हैं। मादा कुत्ते और नर कुत्ते को कहें। मुझे लगता है कि हम मॉडल में एक श्रेणीगत चर के रूप में लिंग का उपयोग कर सकते हैं।"

लिंग कारक परिवर्तनशील और निश्चित प्रभाव होगा, जबकि लिंग के भीतर कुत्ते के आकार की परिवर्तनशीलता एक यादृच्छिक-प्रभाव है। मेरा मॉडल होगा

response ~ sex + (1|size), data=data

सहज रूप से, खरगोश, कुत्ते और बिल्ली को अलग-अलग रूप में चित्रित किया जाना चाहिए क्योंकि कुत्ते और बिल्ली के आकार सहसंबंधित नहीं हैं, हालांकि दो कुत्तों का आकार एक प्रकार का "भीतर-प्रजाति" परिवर्तनशीलता है।


मुझे व्यक्तिगत रूप से लगता है कि "नेस्टेड या पदानुक्रमित संरचना" शब्द बहुत सामान्य है, और सीमाओं को परिभाषित करने के लिए कठिन समय पा रहा है।
Haitao Du

शायद आप सही हैं। मुझे लगता है कि LMM का उपयोग तब किया जाता है जब डेटा में मौजूद किसी प्रकार के समूहीकरण के कारण IID की धारणा का उल्लंघन होता है।
मारीनेस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.