सामान्यीकृत रैखिक (मिश्रित) मॉडल (विशेष रूप से अवशिष्ट) के लिए निदान


25

मैं वर्तमान में मुश्किल गणना डेटा (आश्रित चर) के लिए सही मॉडल खोजने के साथ संघर्ष कर रहा हूं। मैंने विभिन्न विभिन्न मॉडलों की कोशिश की है (मिश्रित प्रभाव मॉडल मेरे प्रकार के डेटा के लिए आवश्यक हैं) जैसे कि lmerऔर lme4(एक लॉग ट्रांसफ़ॉर्म के साथ) सामान्यीकृत रैखिक मिश्रित प्रभाव वाले मॉडल जैसे कि गौसियन या नकारात्मक द्विपद।

हालांकि, मैं इस बात पर काफी अनिश्चित हूं कि परिणामी फिट्स का सही तरीके से निदान कैसे किया जाए। मुझे वेब पर उस विषय पर कई अलग-अलग राय मिलीं। मुझे लगता है कि रैखिक (मिश्रित) प्रतिगमन पर निदान काफी सीधे-आगे हैं। आप अवशिष्टों की तुलना में सज्जित मूल्यों की साजिश रचकर अवशिष्टों (सामान्यता) का विश्लेषण करने के साथ-साथ आगे बढ़ सकते हैं।

हालांकि, आप सामान्यीकृत संस्करण के लिए ठीक से कैसे करते हैं? आइए हम अभी के लिए एक नकारात्मक द्विपद (मिश्रित) प्रतिगमन पर ध्यान दें। मैंने यहां के अवशेषों के संबंध में काफी विरोधात्मक बयान देखे हैं:

  1. में सामान्यीकृत रेखीय मॉडल में सामान्य के लिए बच जाँच हो रही है यह पहली बार जवाब यह है कि सादा बच सामान्य रूप से एक GLM के लिए वितरित नहीं कर रहे हैं में बताया जाता है; मुझे लगता है कि यह स्पष्ट है। हालाँकि, तब यह बताया गया है कि पियर्सन और डिवोर्स अवशिष्ट भी सामान्य नहीं हैं। फिर भी, दूसरा उत्तर बताता है कि अवशिष्ट अवशिष्टों को सामान्य रूप से वितरित किया जाना चाहिए (एक संदर्भ के साथ संयुक्त)।

  2. हालांकि, अवशिष्ट अवशिष्टों को सामान्य रूप से वितरित किया जाना चाहिए; glm.diag.plots (आर के bootपैकेज से) के लिए प्रलेखन में संकेत दिया गया है ।

  3. में इस ब्लॉग पोस्ट , लेखक पहले मैं क्या मान के सामान्य अध्ययन एक नायब मिश्रित प्रभाव प्रतिगमन मॉडल के लिए पियर्सन बच रहे हैं। जैसा कि अपेक्षित था (मेरी ईमानदार राय में) अवशिष्ट सामान्य होने के लिए नहीं दिखा और लेखक ने इस मॉडल को एक खराब फिट माना। हालांकि, जैसा कि टिप्पणियों में कहा गया है, अवशिष्टों को एक नकारात्मक द्विपद वितरण के अनुसार वितरित किया जाना चाहिए। मेरी राय में, यह सच्चाई के सबसे करीब आता है क्योंकि जीएलएम के अवशेषों में सामान्य की तुलना में अन्य वितरण हो सकते हैं। क्या ये सही है? यहां विषमलैंगिकता जैसी चीजों की जांच कैसे करें?

  4. बेन एंड योहाई (2004) में अंतिम बिंदु (अनुमानित वितरण के मात्रात्मक के खिलाफ अवशेषों पर जोर देना) पर बल दिया गया है । वर्तमान में, यह मेरे लिए जाने का मार्ग प्रतीत होता है।

संक्षेप में: आप विशेष रूप से अवशिष्ट पर ध्यान देने के साथ सामान्यीकृत रैखिक (मिश्रित) प्रतिगमन मॉडल के मॉडल फिट का ठीक से अध्ययन कैसे करते हैं?


1
GLM के लिए अवशिष्ट सामान्य रूप से सामान्य नहीं हैं (cf यहाँ ), लेकिन ध्यान दें कि GLMs के लिए बहुत सारे प्रकार के अवशिष्ट हैं। उदाहरण के लिए, glm.diag.plotsयह jackknifed अवशिष्ट अवशिष्ट के लिए कहता है (मुझे संदेह है कि भेद महत्वपूर्ण है)। इसके अलावा, मेरे पास आपके पास गणना डेटा है ; आप उस तथ्य पर ध्यान केंद्रित करना चाह सकते हैं। उदाहरण के लिए, गणना माना जाता है (कुछ अर्थों में) विषमलैंगिक होने के लिए। गिनती प्रतिगमन के लिए नैदानिक ​​भूखंड आपके लिए उपयोगी होना चाहिए (हालांकि यह मिश्रित प्रभाव पहलू को संबोधित नहीं करता है)।
गूँग - मोनिका

मैं आपके द्वारा बताए गए पद से परिचित हूं। हालांकि, एक बयान यह भी है कि (विचलन) अवशिष्ट सामान्य होना चाहिए "हम बहुत बड़े अवशिष्ट देखते हैं और सामान्य से अवशिष्ट अवशिष्ट के पर्याप्त अवमूल्यन (पोइसन के खिलाफ सभी बोलते हैं)"।
fsociety 18

जवाबों:


18

यह उत्तर मेरे ज्ञान पर आधारित नहीं है, बल्कि बोलकर एट अल के बारे में बताता है। (2009) ने ट्रेंड्स इन इकोलॉजी एंड इवोल्यूशन नामक पत्रिका में एक प्रभावशाली पत्र में लिखा । चूंकि लेख खुली पहुंच नहीं है (हालाँकि Google विद्वान पर इसे खोजना सफल साबित हो सकता है, मैंने सोचा कि मैं महत्वपूर्ण अंशों का हवाला देता हूं जो प्रश्नों के कुछ हिस्सों को संबोधित करने में मददगार हो सकते हैं। इसलिए फिर से, यह वही नहीं है जो मैं खुद के साथ आया था, लेकिन मुझे लगता है। यह GLMMs (inlcuding diagnostics) पर सबसे अच्छी तरह से संघनित जानकारी का प्रतिनिधित्व करता है, जिसमें एक बहुत ही सीधा और आसान लेखन शैली है। यदि किसी भी तरह से यह उत्तर जो भी कारण के लिए उपयुक्त नहीं है, मैं बस इसे हटा दूँगा। निदान के संबंध में प्रश्नों के संबंध में उपयोगी हैबोल्ड

पृष्ठ १२::

गैर-असामान्य डेटा के साथ सामना करने वाले शोधकर्ता अक्सर सामान्यता और भिन्नता की समरूपता को प्राप्त करने के लिए डेटा को परिवर्तित करने के लिए शॉर्टकट की कोशिश करते हैं, नॉनपेर्मेट्रिक परीक्षणों का उपयोग करते हुए या संतुलित डिजाइन के लिए गैर-व्यावसायिकता के लिए शास्त्रीय ANOVA की मजबूती पर भरोसा करते हैं। [१५] वे पूरी तरह से यादृच्छिक प्रभावों को अनदेखा कर सकते हैं (इस प्रकार छद्म व्यवहार कर रहे हैं) या उन्हें निर्धारित कारकों के रूप में मानते हैं [16]। हालाँकि, ऐसे शॉर्टकट विफल हो सकते हैं (उदाहरण के लिए कई शून्य मान वाले डेटा को परिवर्तन द्वारा सामान्य नहीं किया जा सकता है)। यहां तक ​​कि जब वे सफल हो जाते हैं, तो वे सांख्यिकीय मान्यताओं का उल्लंघन कर सकते हैं (यहां तक ​​कि गैर-पैरामीट्रिक परीक्षण भी धारणा बनाते हैं, जैसे समूहों में भिन्नता की एकरूपता) या प्रवेश के दायरे को सीमित करते हैं (कोई भी नए समूहों के लिए निश्चित प्रभावों का अनुमान नहीं लगा सकता है)। उनके आंकड़ों को शास्त्रीय सांख्यिकीय ढांचे में शामिल करने के बजाय, शोधकर्ताओं को सांख्यिकीय दृष्टिकोण का उपयोग करना चाहिए जो उनके डेटा से मेल खाते हैं। सामान्यीकृत रैखिक मिश्रित मॉडल (GLMM) दो सांख्यिकीय ढांचे के गुणों को जोड़ती है जो पारिस्थितिकी और विकास में व्यापक रूप से मिश्रित रैखिक मॉडल (जो यादृच्छिक प्रभाव शामिल करते हैं) और सामान्यीकृत रैखिक मॉडल (जो लिंक कार्यों और घातांक परिवार का उपयोग करके गैर-असामान्य डेटा को संभालते हैं] जैसे। सामान्य, पॉइसन या द्विपद] वितरण)। GLMM गैर-असामान्य डेटा का विश्लेषण करने के लिए सबसे अच्छा उपकरण है जिसमें यादृच्छिक प्रभाव शामिल होते हैं: सभी को करना है, सिद्धांत रूप में, एक वितरण, लिंक फ़ंक्शन और यादृच्छिक प्रभावों की संरचना को निर्दिष्ट करना है। रैखिक मिश्रित मॉडल (जिसमें यादृच्छिक प्रभाव शामिल होते हैं) और सामान्यीकृत रैखिक मॉडल (जो लिंक कार्यों और घातीय परिवार [जैसे सामान्य, पॉइसन या द्विपद] वितरणों का उपयोग करके असामान्य डेटा को संभालते हैं)। GLMM गैर-असामान्य डेटा का विश्लेषण करने के लिए सबसे अच्छा उपकरण है जिसमें यादृच्छिक प्रभाव शामिल होते हैं: सभी को करना है, सिद्धांत रूप में, एक वितरण, लिंक फ़ंक्शन और यादृच्छिक प्रभावों की संरचना को निर्दिष्ट करना है। रैखिक मिश्रित मॉडल (जिसमें यादृच्छिक प्रभाव शामिल होते हैं) और सामान्यीकृत रैखिक मॉडल (जो लिंक कार्यों और घातीय परिवार [जैसे सामान्य, पॉइसन या द्विपद] वितरणों का उपयोग करके असामान्य डेटा को संभालते हैं)। GLMM गैर-असामान्य डेटा का विश्लेषण करने के लिए सबसे अच्छा उपकरण है जिसमें यादृच्छिक प्रभाव शामिल होते हैं: सभी को करना है, सिद्धांत रूप में, एक वितरण, लिंक फ़ंक्शन और यादृच्छिक प्रभावों की संरचना को निर्दिष्ट करना है।

पृष्ठ 129, बॉक्स 1:

बच overdispersion संकेत दिया है, तो हम एक अर्ध प्वासों मॉडल के साथ डेटा तब्दील। बड़े पैमाने पर अनुमानित पैरामीटर (10.8) के बावजूद, खोजपूर्ण ग्राफ़ में व्यक्तियों, जीनोटाइप्स या आबादी के स्तर पर आउटलेयर का कोई सबूत नहीं मिला। हमने अर्ध-एआईसी (QAIC) का उपयोग किया, यादृच्छिक प्रभावों के लिए स्वतंत्रता की एक डिग्री का उपयोग करते हुए [49], रैंडमफैक्ट के लिए और फिर निश्चित-प्रभाव मॉडल चयन के लिए।

पृष्ठ 133, बॉक्स 4:

यहां हम एक पूर्ण (सबसे जटिल) मॉडल के निर्माण के लिए एक सामान्य रूपरेखा की रूपरेखा तैयार करते हैं, जो GLMM विश्लेषण का पहला चरण है। इस प्रक्रिया के बाद, कोई भी मापदंडों का मूल्यांकन कर सकता है और मुख्य पाठ और चित्र 1 में वर्णित सबमॉडल्स की तुलना कर सकता है।

  1. निर्दिष्ट (उपचार या सहसंयोजक) और यादृच्छिक प्रभाव (प्रयोगात्मक, स्थानिक या लौकिक ब्लॉक, व्यक्ति, आदि) निर्दिष्ट करें। केवल महत्वपूर्ण इंटरैक्शन शामिल करें। अंगूठे के नियमों (> यादृच्छिक प्रभाव के प्रति 5-6 यादृच्छिक-प्रभाव स्तर और> प्रति उपचार स्तर या प्रयोगात्मक इकाई के 10-20 नमूने) और पर्याप्त नमूने आकार के ज्ञान से प्राप्त मॉडल के आधार पर मॉडल को प्राथमिकता दें। पिछला अध्ययन [64,65]।

  2. एक त्रुटि वितरण और लिंक फ़ंक्शन (उदाहरण के लिए पॉसों वितरण और गिनती डेटा के लिए लॉग लिंक, द्विपद वितरण और अनुपात डेटा के लिए लॉग लिंक) चुनें।

  3. ग्राफिकल चेकिंग : श्रेणियों में डेटा के परिवर्तन (लिंक फ़ंक्शन द्वारा रूपांतरित) सजातीय हैं? क्या निरंतर भविष्यवाणियों के संबंध में रूपांतरित डेटा रैखिक की प्रतिक्रियाएं हैं? क्या बाहर के व्यक्ति या समूह हैं? क्या समूहों में वितरण मान वितरण से मेल खाते हैं?

  4. फटे फिक्स्ड-प्रभाव GLMs दोनों पूर्ण (जमा) डेटा सेट और यादृच्छिक कारकों के प्रत्येक स्तर के भीतर [28,50]। अनुमानित मापदंडों को सामान्य रूप से समूहों में वितरित किया जाना चाहिए (समूह-स्तरीय मापदंडों में बड़ी अनिश्चितता हो सकती है, विशेष रूप से छोटे नमूना आकार वाले समूहों के लिए)। आवश्यक के रूप में मॉडल को समायोजित करें (जैसे लिंक फ़ंक्शन को बदलें या कोवरिएट जोड़ें)।

  5. पूर्ण GLMM फिट करें। अपर्याप्त कंप्यूटर मेमोरी या बहुत धीमी: मॉडल जटिलता को कम करें। यदि अनुमान डेटा के सबसेट पर सफल होता है, तो अधिक कुशल अनुमान एल्गोरिथ्म (उदाहरण के लिए PQL यदि उपयुक्त हो) का प्रयास करें। अभिसरण (चेतावनियाँ या त्रुटियाँ) करने में विफलता: मॉडल जटिलता को कम करें या अनुकूलन सेटिंग्स बदलें (सुनिश्चित करें कि परिणामी उत्तर समझ में आते हैं)। अन्य अनुमान एल्गोरिदम आज़माएं। शून्य भिन्नता वाले घटक या विलक्षणता (चेतावनियाँ या त्रुटियां): जाँचें कि मॉडल ठीक से परिभाषित और पहचान योग्य है (यानी सभी घटक सैद्धांतिक रूप से अनुमानित हो सकते हैं)। मॉडल की जटिलता को कम करें। मॉडल में जानकारी जोड़ना (यादृच्छिक प्रभावों के लिए अतिरिक्त कोवरिएट्स, या नए समूह) समस्याओं को कम कर सकते हैं, जैसा कि उनके मतलब [50] को घटाकर निरंतर कोवरिएट्स को केंद्रित करना है। यदि आवश्यक हो, तो पूर्ण मॉडल से यादृच्छिक प्रभावों को समाप्त करें, बहुत कम अनुमानित भिन्नताओं और / या बड़ी अनिश्चितता, या (iii) बातचीत की शर्तों के साथ कम आंतरिक जैविक ब्याज, (ii) की शर्तें गिराना (i)। (कन्वर्जेंस त्रुटियां या शून्य संस्करण अपर्याप्त डेटा का संकेत दे सकते हैं।)

  6. χ2

अवशिष्ट प्लॉटों का उपयोग ओवरडिप्रेशन के आकलन के लिए किया जाना चाहिए और तब्दील रूपांतरों को श्रेणियों में समरूप होना चाहिए। लेख में कहीं नहीं उल्लेख किया गया था कि अवशेषों को सामान्य रूप से वितरित किया जाना चाहिए।

मुझे लगता है कि इसके विपरीत बयान क्यों हैं, यह दर्शाता है कि GLMMs (पृष्ठ 127-128) ...

... सांख्यिकीय रूप से भी उपयोग करने के लिए आश्चर्यजनक रूप से चुनौतीपूर्ण हैं। हालांकि कई सॉफ्टवेयर पैकेज GLMMs (तालिका 1) को संभाल सकते हैं, कुछ पारिस्थितिकीविज्ञानी और विकासवादी जीवविज्ञानी विकल्पों की सीमा या संभावित नुकसान के बारे में जानते हैं। Google विद्वान द्वारा 2005 के बाद से पारिस्थितिकी और विकास में पत्रों की समीक्षा में, 537 GLMM विश्लेषणों में से 311 (58%) ने इन साधनों का अनुचित तरीके से उपयोग किया (ऑनलाइन पूरक सामग्री देखें)।

और यहाँ निदान सहित GLMMs का उपयोग करते हुए कुछ पूर्ण काम किए गए उदाहरण हैं।

मुझे एहसास है कि यह जवाब एक टिप्पणी की तरह है और इस तरह के रूप में व्यवहार किया जाना चाहिए। लेकिन टिप्पणी अनुभाग मुझे इतनी लंबी टिप्पणी जोड़ने की अनुमति नहीं देता है। चूंकि मुझे लगता है कि यह पत्र इस चर्चा के लिए मूल्य का है (लेकिन दुर्भाग्य से एक पे-वॉल के पीछे), मुझे लगा कि यहां महत्वपूर्ण अंशों को उद्धृत करना उपयोगी होगा।

उद्धृत कागजात:

[१५] - जीपी क्विन, एमजे केओफ (२००२): बायोलॉजिस्ट, कैम्ब्रिज यूनिवर्सिटी प्रेस के लिए प्रायोगिक डिजाइन और डेटा विश्लेषण।

[१६] - एमजे क्रॉली (२००२): सांख्यिकीय कम्प्यूटिंग: एस-प्लस, जॉन विली एंड संस का उपयोग करके डेटा विश्लेषण का एक परिचय।

[२ [] - जेसी पिनहेइरो, डीएम बेट्स (२०००): एस और एस-प्लस, स्प्रिंगर में मिश्रित-प्रभाव मॉडल।

[४ ९] - एफ। वैदा, एस। ब्लैंचर्ड (२००५): मिश्रित प्रभाव वाले मॉडल के लिए सशर्त आकाइक जानकारी। बायोमेट्रिक, 92, पीपी। 351–370।

[५०] - ए। जेलमैन, जे। हिल (२००६): डेटा एनालिसिस यूजिंग रिग्रेशन एंड मल्टिलेवेल / हियरार्चिकल मॉडल्स, कैम्ब्रिज यूनिवर्सिटी प्रेस।

[६४] - एनजे गोटेली, एएम एलिसन (२००४): एक प्राइमर ऑफ़ इकोलॉजिकल स्टैटिस्टिक्स, सिनाउर एसोसिएट्स।

[६५] - एफजे हरेल (२००१): रिग्रेशन मॉडलिंग रणनीतियाँ, स्प्रिंगर।

[६६] - जेके लिंडसे (१ ९९]): सामान्यीकृत रैखिक मॉडल, स्प्रिंगर को लागू करना।

[६ Ven] - डब्ल्यू। वेनेबल्स, बीडी रिप्ले (२००२): एस, स्प्रिंगर के साथ आधुनिक एप्लाइड सांख्यिकी।


धन्यवाद, यह वास्तव में मददगार है, मुझे बोल्कर के कोडिंग उदाहरणों के बारे में पता था, लेकिन किसी भी तरह वास्तविक कागज नहीं। हालांकि मुझे अभी भी आश्चर्य है कि हजारों समूहों के साथ बड़े पैमाने पर डेटा पर ग्राफ़िकल चेकिंग कैसे लागू होती है। कुछ कागजात (जैसे कि वह) जो कि आपके मॉडल को ठीक से जांचने के लिए कुछ दिशानिर्देश देते हैं कि सभी केवल बहुत छोटे पैमाने के डेटा पर लागू होते हैं। फिर, उदाहरण के लिए, समूहों को चुनना और कुछ कल्पना करना बहुत आसान है। मैं वास्तव में सोचता हूं कि यदि कोई व्यक्ति भविष्य में अधिक जटिल उदाहरण से गुजरता है तो एक अच्छा वैज्ञानिक योगदान दिया जा सकता है।
fsociety

1
मुझे खुशी है कि यह उपयोगी था! मुझे लगता है कि प्रस्तुत उदाहरण पहले से ही काफी जटिल हैं (कम से कम मेरे लिए)। मुझे लगता है कि बड़ी समस्या यह है कि बड़े डेटासेट और अधिक जटिल मॉडल कम्प्यूटेशनल रूप से व्यावहारिक हो सकते हैं जैसा कि पाठ में उल्लिखित है: "[...] एमएल अनुमानों को खोजने के लिए, किसी को यादृच्छिक प्रभावों के सभी संभावित मूल्यों पर संभावना को एकीकृत करना चाहिए। जीएलएमएम के लिए। यह गणना सबसे धीमी गति से होती है, और सबसे खराब (उदाहरण के लिए बड़ी संख्या में यादृच्छिक प्रभाव) कम्प्यूटेशनल रूप से अनम्य है। " हालांकि मुझे क्या आश्चर्यजनक लगता है, और क्या ध्यान में रखा जाना चाहिए, यह है कि हम उन उपकरणों का उपयोग कर रहे हैं जो सक्रिय शोध के तहत हैं!
स्टीफन

9

यह एक पुराना प्रश्न है, लेकिन मुझे लगा कि ओपी द्वारा सुझाए गए विकल्प 4 को जोड़ना अब उपयोगी होगा। डीएचएमआरए आर पैकेज में उपलब्ध है (सीआरएएन से उपलब्ध है, यहां देखें )।

पैकेज दृश्य अवशिष्ट चेकों को स्वीकृत उत्तर द्वारा सुझाए गए बहुत अधिक विश्वसनीय / आसान बनाता है।

पैकेज विवरण से:

DHARMA पैकेज फिट सामान्यीकृत रैखिक मिश्रित मॉडल से आसानी से व्याख्या योग्य स्केल अवशेष बनाने के लिए एक सिमुलेशन-आधारित दृष्टिकोण का उपयोग करता है। वर्तमान में समर्थित 4 lme4 ’(od lmerMod’, mer glmerMod ’),) glm’ ('MASS ’से bin नीग्रिन’ सहित, लेकिन अर्ध-वितरण को छोड़कर) और m lm ’मॉडल वर्ग से सभी supported merMod’ वर्ग समर्थित हैं। वैकल्पिक रूप से, बाहरी रूप से बनाए गए सिमुलेशन, उदाहरण के लिए बायेसियन सॉफ़्टवेयर जैसे 'JAGS', 'STAN', या 'BUGS' से पूर्ववर्ती पूर्वानुमानित सिमुलेशन भी संसाधित किए जा सकते हैं। परिणामी अवशिष्टों को 0 और 1 के बीच के मानों में मानकीकृत किया जाता है और एक रेखीय प्रतिगमन से अवशिष्ट के रूप में सहज रूप से व्याख्या की जा सकती है। पैकेज भी विशिष्ट मॉडल mispecification समस्या के लिए कई साजिश और परीक्षण कार्य प्रदान करता है,


1
इस धागे को बहुत अच्छा जोड़!
स्टीफन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.