यह उत्तर मेरे ज्ञान पर आधारित नहीं है, बल्कि बोलकर एट अल के बारे में बताता है। (2009) ने ट्रेंड्स इन इकोलॉजी एंड इवोल्यूशन नामक पत्रिका में एक प्रभावशाली पत्र में लिखा । चूंकि लेख खुली पहुंच नहीं है (हालाँकि Google विद्वान पर इसे खोजना सफल साबित हो सकता है, मैंने सोचा कि मैं महत्वपूर्ण अंशों का हवाला देता हूं जो प्रश्नों के कुछ हिस्सों को संबोधित करने में मददगार हो सकते हैं। इसलिए फिर से, यह वही नहीं है जो मैं खुद के साथ आया था, लेकिन मुझे लगता है। यह GLMMs (inlcuding diagnostics) पर सबसे अच्छी तरह से संघनित जानकारी का प्रतिनिधित्व करता है, जिसमें एक बहुत ही सीधा और आसान लेखन शैली है। यदि किसी भी तरह से यह उत्तर जो भी कारण के लिए उपयुक्त नहीं है, मैं बस इसे हटा दूँगा। निदान के संबंध में प्रश्नों के संबंध में उपयोगी हैबोल्ड ।
पृष्ठ १२::
गैर-असामान्य डेटा के साथ सामना करने वाले शोधकर्ता अक्सर सामान्यता और भिन्नता की समरूपता को प्राप्त करने के लिए डेटा को परिवर्तित करने के लिए शॉर्टकट की कोशिश करते हैं, नॉनपेर्मेट्रिक परीक्षणों का उपयोग करते हुए या संतुलित डिजाइन के लिए गैर-व्यावसायिकता के लिए शास्त्रीय ANOVA की मजबूती पर भरोसा करते हैं। [१५] वे पूरी तरह से यादृच्छिक प्रभावों को अनदेखा कर सकते हैं (इस प्रकार छद्म व्यवहार कर रहे हैं) या उन्हें निर्धारित कारकों के रूप में मानते हैं [16]। हालाँकि, ऐसे शॉर्टकट विफल हो सकते हैं (उदाहरण के लिए कई शून्य मान वाले डेटा को परिवर्तन द्वारा सामान्य नहीं किया जा सकता है)। यहां तक कि जब वे सफल हो जाते हैं, तो वे सांख्यिकीय मान्यताओं का उल्लंघन कर सकते हैं (यहां तक कि गैर-पैरामीट्रिक परीक्षण भी धारणा बनाते हैं, जैसे समूहों में भिन्नता की एकरूपता) या प्रवेश के दायरे को सीमित करते हैं (कोई भी नए समूहों के लिए निश्चित प्रभावों का अनुमान नहीं लगा सकता है)। उनके आंकड़ों को शास्त्रीय सांख्यिकीय ढांचे में शामिल करने के बजाय, शोधकर्ताओं को सांख्यिकीय दृष्टिकोण का उपयोग करना चाहिए जो उनके डेटा से मेल खाते हैं। सामान्यीकृत रैखिक मिश्रित मॉडल (GLMM) दो सांख्यिकीय ढांचे के गुणों को जोड़ती है जो पारिस्थितिकी और विकास में व्यापक रूप से मिश्रित रैखिक मॉडल (जो यादृच्छिक प्रभाव शामिल करते हैं) और सामान्यीकृत रैखिक मॉडल (जो लिंक कार्यों और घातांक परिवार का उपयोग करके गैर-असामान्य डेटा को संभालते हैं] जैसे। सामान्य, पॉइसन या द्विपद] वितरण)। GLMM गैर-असामान्य डेटा का विश्लेषण करने के लिए सबसे अच्छा उपकरण है जिसमें यादृच्छिक प्रभाव शामिल होते हैं: सभी को करना है, सिद्धांत रूप में, एक वितरण, लिंक फ़ंक्शन और यादृच्छिक प्रभावों की संरचना को निर्दिष्ट करना है। रैखिक मिश्रित मॉडल (जिसमें यादृच्छिक प्रभाव शामिल होते हैं) और सामान्यीकृत रैखिक मॉडल (जो लिंक कार्यों और घातीय परिवार [जैसे सामान्य, पॉइसन या द्विपद] वितरणों का उपयोग करके असामान्य डेटा को संभालते हैं)। GLMM गैर-असामान्य डेटा का विश्लेषण करने के लिए सबसे अच्छा उपकरण है जिसमें यादृच्छिक प्रभाव शामिल होते हैं: सभी को करना है, सिद्धांत रूप में, एक वितरण, लिंक फ़ंक्शन और यादृच्छिक प्रभावों की संरचना को निर्दिष्ट करना है। रैखिक मिश्रित मॉडल (जिसमें यादृच्छिक प्रभाव शामिल होते हैं) और सामान्यीकृत रैखिक मॉडल (जो लिंक कार्यों और घातीय परिवार [जैसे सामान्य, पॉइसन या द्विपद] वितरणों का उपयोग करके असामान्य डेटा को संभालते हैं)। GLMM गैर-असामान्य डेटा का विश्लेषण करने के लिए सबसे अच्छा उपकरण है जिसमें यादृच्छिक प्रभाव शामिल होते हैं: सभी को करना है, सिद्धांत रूप में, एक वितरण, लिंक फ़ंक्शन और यादृच्छिक प्रभावों की संरचना को निर्दिष्ट करना है।
पृष्ठ 129, बॉक्स 1:
बच overdispersion संकेत दिया है, तो हम एक अर्ध प्वासों मॉडल के साथ डेटा तब्दील। बड़े पैमाने पर अनुमानित पैरामीटर (10.8) के बावजूद, खोजपूर्ण ग्राफ़ में व्यक्तियों, जीनोटाइप्स या आबादी के स्तर पर आउटलेयर का कोई सबूत नहीं मिला। हमने अर्ध-एआईसी (QAIC) का उपयोग किया, यादृच्छिक प्रभावों के लिए स्वतंत्रता की एक डिग्री का उपयोग करते हुए [49], रैंडमफैक्ट के लिए और फिर निश्चित-प्रभाव मॉडल चयन के लिए।
पृष्ठ 133, बॉक्स 4:
यहां हम एक पूर्ण (सबसे जटिल) मॉडल के निर्माण के लिए एक सामान्य रूपरेखा की रूपरेखा तैयार करते हैं, जो GLMM विश्लेषण का पहला चरण है। इस प्रक्रिया के बाद, कोई भी मापदंडों का मूल्यांकन कर सकता है और मुख्य पाठ और चित्र 1 में वर्णित सबमॉडल्स की तुलना कर सकता है।
निर्दिष्ट (उपचार या सहसंयोजक) और यादृच्छिक प्रभाव (प्रयोगात्मक, स्थानिक या लौकिक ब्लॉक, व्यक्ति, आदि) निर्दिष्ट करें। केवल महत्वपूर्ण इंटरैक्शन शामिल करें। अंगूठे के नियमों (> यादृच्छिक प्रभाव के प्रति 5-6 यादृच्छिक-प्रभाव स्तर और> प्रति उपचार स्तर या प्रयोगात्मक इकाई के 10-20 नमूने) और पर्याप्त नमूने आकार के ज्ञान से प्राप्त मॉडल के आधार पर मॉडल को प्राथमिकता दें। पिछला अध्ययन [64,65]।
एक त्रुटि वितरण और लिंक फ़ंक्शन (उदाहरण के लिए पॉसों वितरण और गिनती डेटा के लिए लॉग लिंक, द्विपद वितरण और अनुपात डेटा के लिए लॉग लिंक) चुनें।
ग्राफिकल चेकिंग : श्रेणियों में डेटा के परिवर्तन (लिंक फ़ंक्शन द्वारा रूपांतरित) सजातीय हैं? क्या निरंतर भविष्यवाणियों के संबंध में रूपांतरित डेटा रैखिक की प्रतिक्रियाएं हैं? क्या बाहर के व्यक्ति या समूह हैं? क्या समूहों में वितरण मान वितरण से मेल खाते हैं?
फटे फिक्स्ड-प्रभाव GLMs दोनों पूर्ण (जमा) डेटा सेट और यादृच्छिक कारकों के प्रत्येक स्तर के भीतर [28,50]। अनुमानित मापदंडों को सामान्य रूप से समूहों में वितरित किया जाना चाहिए (समूह-स्तरीय मापदंडों में बड़ी अनिश्चितता हो सकती है, विशेष रूप से छोटे नमूना आकार वाले समूहों के लिए)। आवश्यक के रूप में मॉडल को समायोजित करें (जैसे लिंक फ़ंक्शन को बदलें या कोवरिएट जोड़ें)।
पूर्ण GLMM फिट करें। अपर्याप्त कंप्यूटर मेमोरी या बहुत धीमी: मॉडल जटिलता को कम करें। यदि अनुमान डेटा के सबसेट पर सफल होता है, तो अधिक कुशल अनुमान एल्गोरिथ्म (उदाहरण के लिए PQL यदि उपयुक्त हो) का प्रयास करें। अभिसरण (चेतावनियाँ या त्रुटियाँ) करने में विफलता: मॉडल जटिलता को कम करें या अनुकूलन सेटिंग्स बदलें (सुनिश्चित करें कि परिणामी उत्तर समझ में आते हैं)। अन्य अनुमान एल्गोरिदम आज़माएं। शून्य भिन्नता वाले घटक या विलक्षणता (चेतावनियाँ या त्रुटियां): जाँचें कि मॉडल ठीक से परिभाषित और पहचान योग्य है (यानी सभी घटक सैद्धांतिक रूप से अनुमानित हो सकते हैं)। मॉडल की जटिलता को कम करें। मॉडल में जानकारी जोड़ना (यादृच्छिक प्रभावों के लिए अतिरिक्त कोवरिएट्स, या नए समूह) समस्याओं को कम कर सकते हैं, जैसा कि उनके मतलब [50] को घटाकर निरंतर कोवरिएट्स को केंद्रित करना है। यदि आवश्यक हो, तो पूर्ण मॉडल से यादृच्छिक प्रभावों को समाप्त करें, बहुत कम अनुमानित भिन्नताओं और / या बड़ी अनिश्चितता, या (iii) बातचीत की शर्तों के साथ कम आंतरिक जैविक ब्याज, (ii) की शर्तें गिराना (i)। (कन्वर्जेंस त्रुटियां या शून्य संस्करण अपर्याप्त डेटा का संकेत दे सकते हैं।)
χ2
अवशिष्ट प्लॉटों का उपयोग ओवरडिप्रेशन के आकलन के लिए किया जाना चाहिए और तब्दील रूपांतरों को श्रेणियों में समरूप होना चाहिए। लेख में कहीं नहीं उल्लेख किया गया था कि अवशेषों को सामान्य रूप से वितरित किया जाना चाहिए।
मुझे लगता है कि इसके विपरीत बयान क्यों हैं, यह दर्शाता है कि GLMMs (पृष्ठ 127-128) ...
... सांख्यिकीय रूप से भी उपयोग करने के लिए आश्चर्यजनक रूप से चुनौतीपूर्ण हैं। हालांकि कई सॉफ्टवेयर पैकेज GLMMs (तालिका 1) को संभाल सकते हैं, कुछ पारिस्थितिकीविज्ञानी और विकासवादी जीवविज्ञानी विकल्पों की सीमा या संभावित नुकसान के बारे में जानते हैं। Google विद्वान द्वारा 2005 के बाद से पारिस्थितिकी और विकास में पत्रों की समीक्षा में, 537 GLMM विश्लेषणों में से 311 (58%) ने इन साधनों का अनुचित तरीके से उपयोग किया (ऑनलाइन पूरक सामग्री देखें)।
और यहाँ निदान सहित GLMMs का उपयोग करते हुए कुछ पूर्ण काम किए गए उदाहरण हैं।
मुझे एहसास है कि यह जवाब एक टिप्पणी की तरह है और इस तरह के रूप में व्यवहार किया जाना चाहिए। लेकिन टिप्पणी अनुभाग मुझे इतनी लंबी टिप्पणी जोड़ने की अनुमति नहीं देता है। चूंकि मुझे लगता है कि यह पत्र इस चर्चा के लिए मूल्य का है (लेकिन दुर्भाग्य से एक पे-वॉल के पीछे), मुझे लगा कि यहां महत्वपूर्ण अंशों को उद्धृत करना उपयोगी होगा।
उद्धृत कागजात:
[१५] - जीपी क्विन, एमजे केओफ (२००२): बायोलॉजिस्ट, कैम्ब्रिज यूनिवर्सिटी प्रेस के लिए प्रायोगिक डिजाइन और डेटा विश्लेषण।
[१६] - एमजे क्रॉली (२००२): सांख्यिकीय कम्प्यूटिंग: एस-प्लस, जॉन विली एंड संस का उपयोग करके डेटा विश्लेषण का एक परिचय।
[२ [] - जेसी पिनहेइरो, डीएम बेट्स (२०००): एस और एस-प्लस, स्प्रिंगर में मिश्रित-प्रभाव मॉडल।
[४ ९] - एफ। वैदा, एस। ब्लैंचर्ड (२००५): मिश्रित प्रभाव वाले मॉडल के लिए सशर्त आकाइक जानकारी। बायोमेट्रिक, 92, पीपी। 351–370।
[५०] - ए। जेलमैन, जे। हिल (२००६): डेटा एनालिसिस यूजिंग रिग्रेशन एंड मल्टिलेवेल / हियरार्चिकल मॉडल्स, कैम्ब्रिज यूनिवर्सिटी प्रेस।
[६४] - एनजे गोटेली, एएम एलिसन (२००४): एक प्राइमर ऑफ़ इकोलॉजिकल स्टैटिस्टिक्स, सिनाउर एसोसिएट्स।
[६५] - एफजे हरेल (२००१): रिग्रेशन मॉडलिंग रणनीतियाँ, स्प्रिंगर।
[६६] - जेके लिंडसे (१ ९९]): सामान्यीकृत रैखिक मॉडल, स्प्रिंगर को लागू करना।
[६ Ven] - डब्ल्यू। वेनेबल्स, बीडी रिप्ले (२००२): एस, स्प्रिंगर के साथ आधुनिक एप्लाइड सांख्यिकी।
glm.diag.plots
यह jackknifed अवशिष्ट अवशिष्ट के लिए कहता है (मुझे संदेह है कि भेद महत्वपूर्ण है)। इसके अलावा, मेरे पास आपके पास गणना डेटा है ; आप उस तथ्य पर ध्यान केंद्रित करना चाह सकते हैं। उदाहरण के लिए, गणना माना जाता है (कुछ अर्थों में) विषमलैंगिक होने के लिए। गिनती प्रतिगमन के लिए नैदानिक भूखंड आपके लिए उपयोगी होना चाहिए (हालांकि यह मिश्रित प्रभाव पहलू को संबोधित नहीं करता है)।