किन परिस्थितियों में बहुस्तरीय / पदानुक्रमित विश्लेषण का उपयोग करना चाहिए?


36

किन परिस्थितियों में किसी को बहुस्तरीय / पदानुक्रमित विश्लेषण का उपयोग करने पर विचार करना चाहिए क्योंकि अधिक बुनियादी / पारंपरिक विश्लेषण (जैसे, एनोवा, ओएलएस प्रतिगमन, आदि) के विपरीत? क्या ऐसी कोई परिस्थितियां हैं जिनमें इसे अनिवार्य माना जा सकता है? क्या ऐसी परिस्थितियाँ हैं जिनमें बहुस्तरीय / श्रेणीबद्ध विश्लेषण का उपयोग अनुचित है? अंत में, शुरुआती / बहुभाषी विश्लेषण सीखने के लिए शुरुआती लोगों के लिए कुछ अच्छे संसाधन क्या हैं?


3
इसे भी देखें: आंकड़े.stackexchange.com/a/38430/5739
StasK

जवाबों:


22

जब आपके डेटा की संरचना स्वाभाविक रूप से पदानुक्रमित या नेस्टेड है, तो बहुस्तरीय मॉडलिंग एक अच्छा उम्मीदवार है। अधिक आम तौर पर, यह बातचीत करने के लिए एक तरीका है।

एक प्राकृतिक उदाहरण तब है जब आपका डेटा देश, राज्य, जिलों जैसी संगठित संरचना से है, जहां आप उन स्तरों पर प्रभावों की जांच करना चाहते हैं। एक अन्य उदाहरण जहां आप इस तरह की संरचना को फिट कर सकते हैं वह है अनुदैर्ध्य विश्लेषण, जहां आपने समय के साथ कई विषयों से मापों को दोहराया है (उदाहरण के लिए दवा की खुराक के लिए कुछ जैविक प्रतिक्रिया)। आपके मॉडल का एक स्तर समय के साथ सभी विषयों के लिए एक समूह की प्रतिक्रिया का अर्थ है। आपके मॉडल का एक अन्य स्तर तब व्यक्तिगत अंतर को मॉडल करने के लिए समूह से अर्थ (यादृच्छिक प्रभाव) के लिए अनुमति देता है।

के साथ शुरू करने के लिए एक लोकप्रिय और अच्छी किताब है जेलमैन का डेटा विश्लेषण रिग्रेसन और मल्टीलेवल / हाइरेरिकल मॉडल का उपयोग करना


3
मैं यह उत्तर देता हूं और इस विषय पर एक और महान संदर्भ जोड़ना चाहूंगा: गायक का एप्लाइड अनुदैर्ध्य डेटा विश्लेषण पाठ < gseac शैक्षणिक . harvard.edu/alda >। हालांकि यह अनुदैर्ध्य विश्लेषण के लिए विशिष्ट है, यह सामान्य रूप से एमएलएम का एक अच्छा अवलोकन देता है। मुझे स्निडजर्स और बोस्कर का मल्टीलेवल विश्लेषण भी अच्छा और पठनीय < stat.gamma.rug.nl/multilevel.htm > मिला। जॉन फॉक्स भी आर में इन मॉडलों के लिए एक अच्छा परिचय प्रदान करता है < cran.r-project.org/doc/contrib/Fox-Companion/… >।
ब्रेट

आपकी प्रतिक्रियाओं के लिए आप सभी का धन्यवाद :) एक अनुवर्ती प्रश्न के रूप में, अधिकांश डेटा को स्वाभाविक रूप से पदानुक्रमित / नेस्टेड होने के रूप में परिकल्पित नहीं किया जा सकता है? उदाहरण के लिए, अधिकांश मनोवैज्ञानिक अध्ययनों में कई आश्रित चर (प्रश्नावली, उत्तेजना प्रतिक्रियाएं, आदि ...) व्यक्तियों के भीतर निहित होते हैं, जो आगे दो या अधिक समूहों (यादृच्छिक या गैर-यादृच्छिक रूप से असाइन किए गए) के भीतर होते हैं। क्या आप सहमत होंगे कि यह स्वाभाविक रूप से पदानुक्रमित और / या नेस्टेड डेटा संरचना का प्रतिनिधित्व करता है?
पैट्रिक

यदि आप में से कोई भी बहुस्तरीय / पदानुक्रमित गुरु कुछ मिनटों को छोड़ सकता है, तो मैं बहुत आभारी रहूंगा यदि आप एक अलग पोस्ट में दिए गए विश्लेषण प्रश्नों ( आँकड़े . stackexchange.com/questions/1799-… ) पर वजन कर सकते हैं । विशेष रूप से, क्या आपको लगता है कि उस पोस्ट में उल्लिखित दर्द धारणा डेटा गैर-पदानुक्रमित विश्लेषणों की तुलना में पदानुक्रमित विश्लेषणों द्वारा बेहतर विश्लेषण किया जाएगा? या इससे फर्क नहीं पड़ेगा या अनुचित भी होगा? साभार: D
पैट्रिक

18

मल्टीलेवल मॉडलिंग के केंद्र में मल्टी-लेवल मॉडलिंग के लिए कुछ अच्छे मुफ्त ऑनलाइन ट्यूटोरियल हैं, और उनके एमएलवीएनएन सॉफ्टवेयर और एसटीएटीए दोनों में फिटिंग मॉडल के लिए सॉफ्टवेयर ट्यूटोरियल हैं।

इसे विधर्म के रूप में लें, क्योंकि मैंने किताब में एक अध्याय से अधिक नहीं पढ़ा है, लेकिन पदानुक्रमित रैखिक मॉडल: एप्लीकेशन और डेटा विश्लेषण के तरीके स्टीफन डब्ल्यू। राउडेन्बुश द्वारा, एंथनी एस। ब्रिक अत्यधिक अनुशंसित हैं। मैंने यह भी शपथ ली कि स्प्रिंगर यूज आर में आर सॉफ्टवेयर का उपयोग करते हुए मल्टी लेवल मॉडलिंग पर एक पुस्तक थी! श्रृंखला, लेकिन मैं इसे इस समय नहीं ढूंढ सकता हूं (मुझे लगा कि यह उन्हीं लोगों द्वारा लिखा गया है जिन्होंने ए बिगनर्स गाइड टू आर किताब लिखी थी)।

संपादित करें: बहु-स्तरीय मॉडल के लिए आर का उपयोग करने पर पुस्तक मिश्रित प्रभाव मॉडल और पारिस्थितिकी में एक्स के साथ Zuur, वायु सेना, Ieno, EN, वाकर, एन, Saveliev, एए, स्मिथ, जीएम

सौभाग्य


9

यहां मल्टीलेवल बनाम रिग्रेशन मॉडल का उपयोग करने पर एक और परिप्रेक्ष्य है: अफशर्टस और डी लीउव द्वारा एक दिलचस्प पेपर में, वे दिखाते हैं कि यदि मॉडलिंग का उद्देश्य भविष्य कहनेवाला है (यानी, नई टिप्पणियों का अनुमान लगाने के लिए), मॉडल की पसंद कब से अलग है लक्ष्य एक अनुमान है (जहां आप डेटा संरचना के साथ मॉडल से मेल खाने की कोशिश करते हैं)। मैं जिस कागज का जिक्र कर रहा हूं

अफशरत, डी।, डी लीउव, जे। (2005)। बहुस्तरीय मॉडल में भविष्यवाणी। जे। एजुकेट। बिहेव। सांख्यिकीविद। 30 (2): 109-139।

मुझे यहाँ इन लेखकों द्वारा एक और संबंधित पेपर मिला: http : //moya.bus.m मियामी. edu / ~dafshartous / Afshartous_CIS.pdf


6

यहां एक उदाहरण है जहां एक बहुस्तरीय मॉडल "आवश्यक" हो सकता है। मान लीजिए आप छात्रों के परीक्षा स्कोर का उपयोग करके स्कूलों के एक सेट द्वारा प्रदान की गई शिक्षा की "गुणवत्ता" को रेट करना चाहते हैं। स्कूल की गुणवत्ता को परिभाषित करने का एक तरीका छात्र विशेषताओं को ध्यान में रखने के बाद औसत परीक्षण प्रदर्शन के संदर्भ में है। तुम्हें पता है, के रूप में इस अवधारणा सकता जहां छात्र के लिए निरंतर परीक्षण स्कोर है स्कूल में , हैं छात्र, स्कूल साधन पर केन्द्रित विशेषताओं इन विशेषताओं पर एक स्कूल-विशिष्ट गुणांक है, एक "स्कूल प्रभाव" है कि उपायों स्कूल गुणवत्ता है, औरy मैं रों मैं रों एक्स मैं रों β रों α रों ε मैं रों α रों

yis=αs+Xisβs+ϵis,
yisisXisβsαsϵis टेस्ट ले रहे प्रदर्शन में छात्र स्तर की पहचान हैं। यहां रुचि अनुमान लगाने पर केंद्रित है , जो "जोड़ा गया मूल्य" को मापता है, जो कि स्कूल द्वारा छात्रों को एक बार उनकी विशेषताओं का लेखा-जोखा प्रदान करने के लिए प्रदान किया जाता है। आप छात्र विशेषताओं को ध्यान में रखना चाहते हैं, क्योंकि आप एक अच्छे स्कूल को दंडित नहीं करना चाहते हैं, जिसे कुछ नुकसान के साथ छात्रों से निपटना पड़ता है, इसलिए निराशाजनक औसत परीक्षण स्कोर उच्च "अतिरिक्त मूल्य" को तिरस्कृत करते हैं जो स्कूल अपने छात्रों को प्रदान करता है। αs

हाथ में मॉडल के साथ, मुद्दा अनुमान में से एक बन जाता है। यदि आपके पास बहुत से स्कूल हैं और प्रत्येक स्कूल के लिए बहुत सारे डेटा हैं, तो OLS की अच्छी संपत्तियाँ (देखें एंग्रीस्ट और पिस्के, ज्यादातर हानिरहित ..., for a current review) suggest that you would want to use that, with suitable adjustments to standard errors to account for dependencies, and using dummy variables and interactions to get at school level effects and school specific intercepts. OLS may be inefficient, but it's so transparent that it might be easier to convince skeptical audiences if you use that. But if your data are sparse in certain ways---particularly if you have few observations for some schools---you may want to impose more "structure" on the problem. You may want to "borrow strength" from the larger-sample schools to improve the noisy estimates that you would get in the small-sample schools if the estimation were done with no structure. Then, you might turn to a random effects model estimated via FGLS, or maybe an approximation to direct likelihood given a certain parametric model, or even Bayes on a parametric model.

इस उदाहरण में, एक बहुस्तरीय मॉडल का उपयोग (हालांकि हम इसे फिट करने का निर्णय लेते हैं, अंततः) स्कूल-स्तर के साक्षात्कार में प्रत्यक्ष रुचि से प्रेरित होते हैं। बेशक, अन्य स्थितियों में, ये समूह स्तर के पैरामीटर उपद्रव से ज्यादा कुछ नहीं हो सकते हैं। आपको उनके लिए समायोजित करने की आवश्यकता है या नहीं (और इसलिए, अभी भी कुछ प्रकार के मल्टीलेवल मॉडल के साथ काम करते हैं) इस बात पर निर्भर करता है कि क्या कुछ सशर्त अतिशयोक्ति धारणाएं पकड़ में हैं। उस पर, मैं पैनल डेटा विधियों पर अर्थमितीय साहित्य से परामर्श करने की सलाह दूंगा; वहाँ से अधिकांश अंतर्दृष्टि सामान्य समूहीकृत डेटा संदर्भों तक ले जाती है।


1
यह एक पुराना धागा है, लेकिन अगर आप इसे पढ़ते हैं: ओएलएस डमी वैरिएबल और इंटरैक्शन के साथ ताकत उधार नहीं लेते हैं जैसा कि आपके द्वारा बताई गई अन्य तकनीकों में है? मेरे पास कुछ डेटा है जहां मैंने अपने विश्लेषण को दो भागों में तोड़ा है और दो भागों को मॉडल करने के लिए दो एलएम (आर रैखिक मॉडल) कमांड का उपयोग किया है। मैंने दो भागों को इंगित करने के लिए एक डमी चर पेश किया, फिर इस "एकीकृत" मॉडल पर फिर से एलएम का उपयोग किया और उत्तर करीब हैं, लेकिन समान नहीं हैं। मेरा प्रश्न यह होगा: क्या वह उत्तर "बेहतर" है, या एल्गोरिथ्म के कारण बस अलग है?
वेन

@Wayne: यदि आपने डमी और दूसरे में बातचीत का पूरा सेट इस्तेमाल किया है, तो बिंदु अनुमान समान होना चाहिए। मानक त्रुटियां भिन्न हो सकती हैं क्योंकि दूसरी विधि स्वतंत्रता की उच्च डिग्री मान सकती है, लेकिन आप यह जांचना चाहेंगे कि क्या यह एक सही मॉडलिंग धारणा है।
साइरस एस

6

मल्टी-लेवल मॉडलिंग उपयुक्त है, जैसा कि नाम से पता चलता है, जब आपके डेटा में विभिन्न स्तरों पर होने वाले प्रभाव होते हैं (व्यक्तिगत, समय के साथ, डोमेन आदि)। सिंगल लेवल मॉडलिंग मानती है कि सब कुछ सबसे निचले स्तर पर हो रहा है। एक और चीज जो बहु-स्तरीय मॉडल करती है, वह है नेस्टेड इकाइयों के बीच सहसंबंध शुरू करना। तो समान स्तर -2 इकाई के भीतर स्तर -1 इकाइयों को सहसंबद्ध किया जाएगा।

कुछ अर्थों में आप "व्यक्तिवादी पतनशीलता" और "पारिस्थितिक पतन" के बीच के मध्य मैदान को खोजने के लिए बहु-स्तरीय मॉडलिंग के बारे में सोच सकते हैं। व्यक्तिवादी अशुद्धता तब होती है जब "सामुदायिक प्रभावों" को अनदेखा किया जाता है जैसे कि छात्र की सीखने की शैली के साथ शिक्षक की शैली की संगतता, उदाहरण के लिए (प्रभाव अकेले व्यक्ति से आने के लिए माना जाता है, इसलिए सिर्फ स्तर 1 पर प्रतिगमन करें)। जबकि "पारिस्थितिक पतन" इसके विपरीत है, और यह मानने के समान होगा कि सर्वश्रेष्ठ शिक्षक के पास सर्वश्रेष्ठ ग्रेड वाले छात्र थे (और इसलिए कि स्तर -1 की आवश्यकता नहीं है, बस पूरी तरह से स्तर 2 पर प्रतिगमन करें)। अधिकांश सेटिंग्स में, न तो उपयुक्त है (छात्र-शिक्षक एक "शास्त्रीय" उदाहरण है)।

ध्यान दें कि स्कूल के उदाहरण में, डेटा में "प्राकृतिक" क्लस्टरिंग या संरचना थी। लेकिन यह बहु-स्तरीय / श्रेणीबद्ध मॉडलिंग की एक अनिवार्य विशेषता नहीं है। हालांकि, प्राकृतिक क्लस्टरिंग गणित और कम्प्यूटेशन को आसान बनाता है। प्रमुख घटक पूर्व सूचना है जो कहती है कि विभिन्न स्तरों पर प्रक्रियाएं हो रही हैं। वास्तव में आप अपने डेटा पर एक बहु-स्तरीय संरचना को अनिश्चितता के साथ क्लस्टरिंग एल्गोरिदम को तैयार कर सकते हैं कि कौन सी इकाई किस उच्च स्तर पर है। तो आपके पास सबस्क्रिप्ट अज्ञात है। jyijj


4

आम तौर पर, एक पदानुक्रमित बायेसियन (एचबी) विश्लेषण बोलने से कुशल और स्थिर व्यक्तिगत स्तर का अनुमान होगा जब तक कि आपका डेटा ऐसा न हो कि व्यक्तिगत स्तर के प्रभाव पूरी तरह से सजातीय (एक अवास्तविक परिदृश्य) हों। एचबी मॉडल की दक्षता और स्थिर पैरामीटर अनुमान वास्तव में महत्वपूर्ण हो जाता है जब आपके पास डेटा विरल होता है (उदाहरण के लिए, व्यक्तिगत स्तर पर मापदंडों की संख्या से कम नहीं) और जब आप व्यक्तिगत स्तर के अनुमानों का अनुमान लगाना चाहते हैं।

हालांकि, एचबी मॉडल हमेशा अनुमान लगाने में आसान नहीं होते हैं। इसलिए, जबकि एचबी विश्लेषण आम तौर पर गैर-एचबी विश्लेषण को ट्रम्प करता है, आपको समय और लागत के संदर्भ में अपने पिछले अनुभव और अपनी वर्तमान प्राथमिकताओं के आधार पर सापेक्ष लागत बनाम लाभों का वजन करना पड़ता है।

यह कहते हुए कि यदि आप व्यक्तिगत स्तर के अनुमानों में रुचि नहीं रखते हैं, तो आप बस एक समग्र स्तर के मॉडल का अनुमान लगा सकते हैं, लेकिन इन संदर्भों में भी एचबी के माध्यम से व्यक्तिगत स्तर के अनुमानों का उपयोग करते हुए कुल मॉडल का अनुमान लगाया जा सकता है।

सारांश में, जब तक आपके पास उन्हें फिट करने का समय और धैर्य न हो, तब तक एचबी मॉडल फिटिंग करने की सिफारिश की जाती है। फिर आप अपने HB मॉडल के प्रदर्शन का आकलन करने के लिए एक बेंचमार्क के रूप में कुल मॉडल का उपयोग कर सकते हैं।


आपके विस्तृत उत्तर के लिए धन्यवाद श्रीकांत :) मैं वर्तमान में बायेसियन विश्लेषणों से परिचित नहीं हूं, लेकिन मैं उन विषयों में से एक हूं जिनकी जांच करने का मेरा अर्थ है। क्या इस पृष्ठ पर चर्चा की गई अन्य बहुस्तरीय / पदानुक्रमित विश्लेषणों से अलग पदानुक्रमित बायेसियन विश्लेषण है? यदि ऐसा है तो आपके पास अधिक सीखने के लिए इच्छुक पार्टियों के लिए अनुशंसित संसाधन हैं?
पैट्रिक

एक विश्लेषणात्मक दृष्टिकोण से एचबी विश्लेषण = बहु-स्तरीय मॉडल। हालाँकि, बहु-स्तरीय मॉडल का उपयोग तब किया जाता है जब आपके पास विभिन्न स्तर होते हैं जो स्वाभाविक रूप से होते हैं (@ars का उदाहरण देखें)। एचबी मॉडल शब्द का उपयोग तब किया जाता है जब आप आवश्यक रूप से स्थिति में विभिन्न स्तरों पर नहीं होते हैं। उदाहरण के लिए, यदि आप विभिन्न विपणन चर (जैसे, मूल्य, सलाह खर्च आदि) के लिए उपभोक्ता की प्रतिक्रिया को मॉडलिंग कर रहे हैं, तो आपके पास उपभोक्ता स्तर पर निम्न संरचना हो सकती है: और जनसंख्या स्तर पर । संदर्भ के लिए: अन्य उत्तर देखें। βiN(β¯,Σ)β¯N(.,.)

4

मैंने स्नीजर्स और बॉस्कर, मल्टीलेवल विश्लेषण से सीखा: बुनियादी और उन्नत बहुस्तरीय मॉडलिंग के लिए एक परिचय। यह मुझे लगता है कि शुरुआत में बहुत अच्छी तरह से खड़ा है, यह होना चाहिए क्योंकि मैं एक मोटा हूं जहां इन चीजों का संबंध है और यह मेरे लिए समझ में आता है।

मैं गेलमैन और हिल के साथ-साथ वास्तव में शानदार पुस्तक हूं।


1

जब एक पदानुक्रमित संरचना में डेटा को नेस्टेड किया जाता है, तो बहु-स्तरीय मॉडल को नियोजित किया जाना चाहिए, खासकर जब आश्रित चर में उच्च स्तर की इकाइयों के बीच महत्वपूर्ण अंतर होते हैं (उदाहरण के लिए, छात्र उपलब्धि अभिविन्यास छात्रों के बीच भिन्न होता है, और उन कक्षाओं के बीच भी होता है जिनके साथ छात्र नेस्टेड हैं)। इन परिस्थितियों में, स्वतंत्र के बजाय टिप्पणियों का क्लस्टर किया जाता है। खाते में क्लस्टरिंग लेने में विफलता के कारण पैरामीटर अनुमानों की त्रुटियों को कम करके आंका जाता है, पक्षपाती महत्व परीक्षण, और जब इसे बनाए रखा जाना चाहिए, तो इसे अस्वीकार करने की प्रवृत्ति होती है। बहु स्तरीय मॉडल का उपयोग करने के लिए औचित्य, साथ ही विश्लेषणों को पूरा करने के बारे में पूरी तरह से स्पष्टीकरण, द्वारा प्रदान किया गया है

रुडेनबश, एसडब्ल्यू ब्रिक, एएस (2002)। पदानुक्रमित रैखिक मॉडल: अनुप्रयोग और डेटा विश्लेषण विधियाँ। दूसरा संस्करण। न्यूबरी पार्क, सीए: सेज।

आर एंड बी पुस्तक भी लेखकों के एचएलएम सॉफ्टवेयर पैकेज के साथ अच्छी तरह से एकीकृत है, जो पैकेज सीखने में बहुत मदद करता है। एक बहु-स्तरीय मॉडल क्यों आवश्यक है और कुछ विकल्पों के लिए बेहतर है (जैसे उच्च स्तर की इकाइयों को डमी कोडिंग) एक क्लासिक पेपर में प्रदान किया गया है

हॉफमैन, डीए (1997)। हिराचिकल रैखिक मॉडल के तर्क और औचित्य का अवलोकन। जर्नल ऑफ मैनेजमेंट, 23, 723-744।

हॉफमैन पेपर को मुफ्त में डाउनलोड किया जा सकता है यदि आप Google "हॉफमैन 1997 एचएलएम" और पीडीएफ ऑनलाइन एक्सेस करते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.