चमक मॉडल के लिए अवशिष्ट नैदानिक ​​भूखंडों की व्याख्या करना?


33

मैं glm मॉडल के अवशिष्ट भूखंडों की व्याख्या करने के बारे में दिशानिर्देशों की तलाश कर रहा हूं। विशेष रूप से पॉइसन, नकारात्मक द्विपद, द्विपद मॉडल। जब मॉडल "सही" हैं, तो हम इन भूखंडों से क्या उम्मीद कर सकते हैं? (उदाहरण के लिए, हम उम्मीद करते हैं कि विचरण बढ़ने की भविष्यवाणी की गई मूल्य बढ़ जाती है, जब एक पॉइसन मॉडल के साथ काम करना होता है)

मुझे पता है कि उत्तर मॉडलों पर निर्भर करते हैं। कोई भी संदर्भ (या विचार करने के लिए सामान्य बिंदु) सहायक / सराहनीय होगा।

जवाबों:


16

मुझे लगता है कि प्रतिगमन विश्लेषण करते समय यह सबसे चुनौतीपूर्ण भागों में से एक है। मैं अधिकांश व्याख्याओं के साथ भी संघर्ष करता हूं (विशेष रूप से द्विपद निदान पागल हैं!)।

मैं सिर्फ इस पोस्ट पर अड़ गया हूं http://www.r-bloggers.com/model-validation-interpreting-residual-plots/ जिन्होंने http://statmaster.sdu.dk/courses/st111/model04/index.html को भी लिंक किया है। # SECTION00020000000000000000

जो मुझे सबसे ज्यादा मदद करता है, वह है कि प्रत्येक मॉडल में शामिल न किए जाने वाले हर भविष्य कहे जाने वाले पैरामीटर के अवशेषों को प्लॉट करना। इसका अर्थ यह भी है कि बहुउद्देशीयता के कारणों से पहले ही लोगों को हटा दिया गया था। इस बॉक्सप्लॉट्स के लिए, सशर्त स्कैप्लेट्स और सामान्य स्कैटरप्लॉट्स महान हैं। यह संभव त्रुटियों को हाजिर करने में मदद करता है

"फॉरेस्ट एनालिटिक्स विथ आर" (यूएसआर सीरीज़) कुछ अच्छे स्पष्टीकरण हैं कि मिश्रित प्रभाव वाले मॉडल (और साथ ही साथ चमक) के लिए अवशेषों की व्याख्या कैसे करें। अच्छा पढ़ा! http://www.springer.com/statistics/life+sciences,+medicine+%26+health/book/978-1-4419-7761-8

किसी दिन मैंने एक ऐसी वेबसाइट के बारे में सोचा जो अवशिष्ट पैटर्न एकत्र कर सकती है जिसे उपयोगकर्ता "ओके" और "ठीक नहीं" होने के लिए वोट कर सकते हैं। लेकिन मुझे वह वेबसाइट कभी नहीं मिली;)


8

मैं इसमें वर्णित विधियों का सुझाव दूंगा:

 Buja, A., Cook, D. Hofmann, H., Lawrence, M. Lee, E.-K., Swayne,
 D.F and Wickham, H. (2009) Statistical Inference for exploratory
 data analysis and model diagnostics Phil. Trans. R. Soc. A 2009
 367, 4361-4383 doi: 10.1098/rsta.2009.0120

कुछ अलग विचार हैं, लेकिन वे ज्यादातर उन आंकड़ों का अनुकरण करने के लिए आते हैं जहां आप जानते हैं कि वास्तविक संबंध क्या है और यह संबंध वास्तविक डेटा के आपके विश्लेषण पर आधारित है। फिर आप अपने वास्तविक डेटा से डायग्नोस्टिक्स की तुलना नकली डेटा सेट के डायग्नोस्टिक्स से करते हैं। vis.testआर के लिए TeachingDemos पैकेज में समारोह पत्र में दिए गए सुझावों में 1 की भिन्नता लागू करता है। बेहतर समझ के लिए पूरा पेपर पढ़ें (सिर्फ मेरा बहुत ही संक्षिप्त सारांश नहीं)।


मुझे लगता है कि बिखराव या अन्य भूखंडों में यादृच्छिक से विचलन करने वाले पैटर्न को देखने के लिए यह एक अच्छा सुझाव है, लेकिन अवशेषों को देखते समय यह एकमात्र लक्ष्य नहीं है। अक्सर हम यादृच्छिक से विशेष विचलन में रुचि रखते हैं (उदाहरण के लिए विषमता, मॉडल में गैर-रैखिकता, छोड़े गए चर, आउटलेयर या उच्च लीवरेज मान, आदि)। बेतरतीब ढंग से उत्पन्न डेटा की तुलना वास्तव में यह पहचानने में कोई मदद नहीं करती है कि अवशिष्ट यादृच्छिक नहीं हैं और न ही उपाय।
एंडी डब्ल्यू

@AndyW, मुझे लगता है कि हम मूल प्रश्न की अलग-अलग व्याख्या कर रहे हैं। मेरे उत्तर से शोधकर्ता को यह पता चल जाता है कि क्या उन्हें कुछ और है, जिसकी उन्हें तलाश है या यदि अवशिष्ट कथानक उचित है। अगर यह उचित नहीं लगता है तो क्या करना है तो अगला कदम है और मेरे उत्तर से परे है (हालांकि कुछ अतिरिक्त मान्यताओं की तुलना सिमुलेशन के एक नए सेट का उपयोग करके की जा सकती है)।
ग्रेग स्नो

5

यह प्रश्न काफी पुराना है, लेकिन मुझे लगा कि इसे जोड़ना उपयोगी होगा, हाल ही में, आप किसी भी GL (M) M के अवशिष्ट को एक मानकीकृत स्थान में बदलने के लिए DHARMa R पैकेज का उपयोग कर सकते हैं । एक बार जब यह हो जाता है, तो आप सामान्य रूप से वितरण से विचलन, एक भविष्यवक्ता पर अवशिष्ट निर्भरता, सामान्य तरीके से स्वैच्छिकता या आटोक्लेररेशन जैसी अवशिष्ट समस्याओं का आकलन / परीक्षण कर सकते हैं। काम के माध्यम से उदाहरण के लिए पैकेज विगनेट देखें , यहाँ और यहाँ सीवी पर अन्य प्रश्न भी ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.