सामान्यीकृत रैखिक मिश्रित मॉडल: मॉडल चयन


10

यह सवाल / विषय एक सहकर्मी के साथ चर्चा में आया था और मैं इस पर कुछ राय देख रहा था:

मैं एक यादृच्छिक प्रभाव लॉजिस्टिक प्रतिगमन का उपयोग करके कुछ डेटा मॉडलिंग कर रहा हूं, और अधिक सटीक रूप से एक यादृच्छिक अवरोधन लॉजिस्टिक प्रतिगमन। निश्चित प्रभावों के लिए मेरे पास 9 चर हैं जो ब्याज के हैं और विचार में आते हैं। मैं चर का पता लगाने के लिए कुछ प्रकार के मॉडल चयन करना चाहता हूं जो महत्वपूर्ण हैं और "सर्वश्रेष्ठ" मॉडल (केवल मुख्य प्रभाव) देते हैं।

मेरा पहला विचार विभिन्न मॉडलों की तुलना करने के लिए एआईसी का उपयोग करना था लेकिन 9 चर के साथ मैं 2 ^ 9 = 512 विभिन्न मॉडल (कीवर्ड: डेटा ड्रेजिंग) की तुलना करने के लिए बहुत रोमांचक नहीं था।

मैंने एक सहयोगी के साथ इस पर चर्चा की और उन्होंने मुझे बताया कि उन्हें GLMMs के साथ स्टेप वाइज (या आगे) मॉडल के चयन के बारे में पढ़ना याद है। लेकिन पी-वैल्यू (उदाहरण के लिए जीएलएमएम के लिए संभावना अनुपात परीक्षण पर आधारित) का उपयोग करने के बजाय, एआईसी को प्रवेश / निकास मानदंड के रूप में उपयोग करना चाहिए।

मुझे यह विचार बहुत दिलचस्प लगा, लेकिन मुझे ऐसा कोई संदर्भ नहीं मिला जिसने आगे इस पर चर्चा की हो और मेरे सहयोगी को याद नहीं था कि वह इसे कहां पढ़ता है। कई किताबें मॉडल की तुलना करने के लिए एआईसी का उपयोग करने का सुझाव देती हैं, लेकिन मुझे इस बारे में एक कदमवार या आगे की मॉडल चयन प्रक्रिया के साथ उपयोग करने के बारे में कोई चर्चा नहीं मिली।

इसलिए मेरे पास मूल रूप से दो प्रश्न हैं:

  1. क्या प्रवेश / निकास कसौटी के रूप में एआईसीआई को चरणबद्ध मॉडल चयन प्रक्रिया में उपयोग करने में कुछ गड़बड़ है? यदि हाँ, तो विकल्प क्या होगा?

  2. क्या आपके पास कुछ संदर्भ हैं जो उपरोक्त प्रक्रिया पर चर्चा करते हैं जो (अंतिम रिपोर्ट के संदर्भ के रूप में भी है?

श्रेष्ठ,

एमिलिया


3
स्टेप वाइज मॉडल चयन उतना ही डेटा ड्रेजिंग है जितना कि फुल सब्मिट चयन (यह वास्तव में बहुत कम समय में एक ही समाधान खोजने की कोशिश करता है)। AIC- आधारित चयन डेटा ड्रेजिंग भी है।
माइकल एम

जवाबों:


8

मल्टीलेवल मॉडलों में स्टेप वाइज चयन गलत है क्योंकि यह "नियमित" प्रतिगमन में गलत है: पी-मान बहुत कम होगा, मानक त्रुटियां बहुत छोटी हैं, पैरामीटर 0 से दूर पक्षपातपूर्ण अनुमान लगाता है। सबसे महत्वपूर्ण, यह आपको इनकार करता है। सोचने का अवसर।

9 आईवीएस बहुत अधिक नहीं है। आपने उन 9 को क्यों चुना? निश्चित रूप से आपके पास एक कारण था।

एक प्रारंभिक बात बहुत सारे भूखंडों को देखती है; कौन सा सटीक इस पर थोड़ा निर्भर करता है कि आपका डेटा अनुदैर्ध्य है (किस स्थिति में एक्स-एक्सिस पर समय के साथ प्लॉट अक्सर उपयोगी होते हैं) या क्लस्टर किए गए। लेकिन निश्चित रूप से 9 IVs और आपके DV के बीच संबंधों को देखें (समानांतर बॉक्स प्लॉट एक सरल संभावना है)।

आदर्श, मूल भावना के आधार पर कुछ मॉडलों का निर्माण करना और एआईसी, बीआईसी या कुछ अन्य माप का उपयोग करके उनकी तुलना करना होगा। लेकिन आश्चर्यचकित न हों अगर कोई विशेष मॉडल स्पष्ट रूप से सर्वश्रेष्ठ के रूप में सामने नहीं आता है। आप यह नहीं कहते कि आप किस क्षेत्र में काम करते हैं, लेकिन कई (सबसे?) क्षेत्रों में, प्रकृति जटिल है। कई मॉडल समान रूप से अच्छी तरह से फिट हो सकते हैं और एक अलग मॉडल एक अलग डेटा सेट पर बेहतर फिट हो सकता है (भले ही दोनों एक ही आबादी से यादृच्छिक नमूने हों)।

संदर्भ के लिए - गैर-मिश्रित मॉडल पर बहुत सारी अच्छी किताबें हैं। आपके लिए कौन सा सबसे अच्छा है, यह निर्भर करता है कि आप किस क्षेत्र में हैं) डेटा की प्रकृति क्या है) आप किस सॉफ्टवेयर का उपयोग करते हैं।

आपकी टिप्पणी का जवाब

  1. यदि सभी 9 चर वैज्ञानिक रूप से महत्वपूर्ण हैं, तो मैं कम से कम उन सभी पर विचार करूंगा। यदि एक चर जो सभी को लगता है कि एक छोटे से प्रभाव वाले महत्वपूर्ण हवाएं हैं, तो यह दिलचस्प है।

  2. समय के साथ और विभिन्न तरीकों से निश्चित रूप से अपने सभी चरों को प्लॉट करें।

  3. अनुदैर्ध्य बहुस्तरीय मॉडल के बारे में सामान्य मुद्दों के लिए मुझे हेदेकर और गिबन्स पसंद हैं ; एसएएसएल में नॉनलाइनियर लॉन्गिट्यूडिनल मॉडल्स के लिए मैं मोलडेनबर्ग्स और वेरबेके पसंद करता हूं । एसएएस प्रलेखन स्वयं (के लिए PROC GLIMMIX) भी मार्गदर्शन प्रदान करता है।


इस अध्ययन में, विषयों को समय के साथ अलग-अलग दवा और एक्सर्साइज़ संयोजन के संपर्क में लाया जाता है और ब्याज का परिणाम एक निश्चित श्वसन स्थिति (हाँ / नहीं) की उपस्थिति है। मरीजों को हर 2 सप्ताह में 6 महीने से अधिक बार मापा जाता है। सॉफ्टवेयर के संदर्भ में, मैं एसएएस और आर। 9 आईवीएस का उपयोग करता हूं जहां जांचकर्ता द्वारा उनके वैज्ञानिक महत्व के कारण चुना गया है।
एमिलिया

डेटा का निरीक्षण उतना ही बुरा है, अगर एल्गोरिदम मॉडल के चयन से बदतर नहीं है। इसका कारण यह है कि एल्गोरिथम मॉडल चयन अच्छी तरह से समझा जाता है और इसके लिए संभावित रूप से समायोजित किया जा सकता है; डेटा को देखना और व्यक्तिपरक निर्णय को नियोजित करना एक ऐसी प्रक्रिया है जिसे दोहराया या समायोजित नहीं किया जा सकता है। किसी भी मामले में, मैं मॉडल चयन करने से बचता हूं क्योंकि मॉडल चयन निष्कासन को अमान्य कर देता है। चूंकि यहां केवल 9 कोवरिएट हैं, इसलिए मुझे लगता है कि सबसे अच्छी सलाह पूर्ण मॉडल के साथ या अकेले पदार्थ पर आधारित मॉडल के साथ काम करना है।
user3903581

3

LASSO जैसे संकोचन विधियों का उपयोग करके मॉडल का चयन बेहतर तरीके से किया जा सकता है। चरणबद्ध तरीके बहुत उदार हैं। तिब्शीरानी के वेबपेज में एक औचित्य पाया जा सकता है। यदि आप R का उपयोग कर रहे हैं तो एक पैकेज है जिसे glmmLassoLASSO संकोचन विधि का उपयोग करके सामान्यीकृत रैखिक मिश्रित प्रभाव वाले मॉडल में मॉडल चयन की अनुमति मिलती है।


1

R में AIC आधारित मिश्रित मॉडल चयन (डमी के लिए भी अच्छा) के लिए एक अच्छा संदर्भ Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R होगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.