रैखिक मॉडल की मान्यताओं और क्या करें यदि अवशेषों को सामान्य रूप से वितरित नहीं किया गया है


22

मैं थोड़ा उलझन में हूं कि रैखिक प्रतिगमन की धारणाएं क्या हैं।

अब तक मैंने जाँच की कि क्या:

  • सभी व्याख्यात्मक चर प्रतिक्रिया चर के साथ रैखिक रूप से संबंधित हैं। (यह मामला था)
  • व्याख्यात्मक चरों के बीच किसी भी तरह की मिलीभगत थी। (थोड़ी मिलीभगत थी)।
  • मेरे मॉडल के डेटा पॉइंट्स की कुक की दूरी 1 से कम है (यह मामला है, सभी दूरी 0.4 से नीचे हैं, इसलिए कोई प्रभाव अंक नहीं है)।
  • अवशिष्ट सामान्य रूप से वितरित किए जाते हैं। (यह मामला नहीं हो सकता है)

लेकिन मैंने फिर निम्नलिखित पढ़ा:

सामान्यता का उल्लंघन अक्सर होता है क्योंकि (ए) आश्रित और / या स्वतंत्र चर के वितरण स्वयं काफी गैर-सामान्य होते हैं, और / या (बी) रैखिकता धारणा का उल्लंघन किया जाता है।

प्रश्न 1 यह ऐसा लगता है जैसे कि स्वतंत्र और निर्भर चर को सामान्य रूप से वितरित करने की आवश्यकता होती है, लेकिन जहां तक ​​मुझे पता है कि यह मामला नहीं है। मेरे आश्रित चर और साथ ही मेरे स्वतंत्र चर में से एक भी सामान्य रूप से वितरित नहीं किया जाता है। क्या उन्हें होना चाहिए?

प्रश्न 2 मेरे अवशेषों की QQnormal साजिश कुछ इस तरह दिखती है:

अवशिष्ट की सामान्यता जाँच

यह थोड़ा सामान्य वितरण से भिन्न होता है और यह shapiro.testभी शून्य परिकल्पना को खारिज करता है कि अवशिष्ट एक सामान्य वितरण से हैं:

> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06

अवशेषों बनाम सज्जित मूल्यों की तरह दिखते हैं:

अवशिष्ट बनाम सज्जित

यदि मेरे अवशेष सामान्य रूप से वितरित नहीं किए जाते हैं तो मैं क्या कर सकता हूं? क्या इसका मतलब यह है कि रैखिक मॉडल पूरी तरह से बेकार है?


3
आपके अवशेष बनाम फिट किए गए कथानक से पता चलता है कि आपके आश्रित चर की सीमा कम है। यह आपके द्वारा देखे जाने वाले पैटर्न को चला सकता है। यह आपको उन वैकल्पिक मॉडलों के लिए संकेत दे सकता है जिन पर आप विचार कर सकते हैं।
मार्टेन ब्यूस

जवाबों:


25

सबसे पहले, मैं अपने आप को इस क्लासिक और स्वीकार्य लेख की एक प्रति प्राप्त करूंगा और इसे पढ़ूंगा: Anscombe FJ। (1973) सांख्यिकीय विश्लेषण में रेखांकन अमेरिकी सांख्यिकीविद् । 27: 17-21।

आपके सवालों पर:

उत्तर 1: न तो निर्भर और न ही स्वतंत्र चर को सामान्य रूप से वितरित करने की आवश्यकता है। वास्तव में उनके पास सभी प्रकार के लूप वितरण हो सकते हैं। सामान्य धारणा त्रुटियों के वितरण पर लागू होता है ( YiY^i )।

उत्तर 2: आप वास्तव में साधारण कम से कम वर्गों (ओएलएस) प्रतिगमन की दो अलग-अलग धारणाओं के बारे में पूछ रहे हैं:

  1. एक है रैखिकता की धारणा । इसका मतलब है कि बीच के रिश्ते Y और X एक सीधी रेखा से व्यक्त किया जाता है (सही बीजगणित के लिए सीधे वापस: y=a+bx , जहां a है y संवाद, और b । लाइन की ढलान) उल्लंघन इस धारणा का सीधा सा मतलब है कि रिश्ते को एक सीधी रेखा द्वारा अच्छी तरह से वर्णित नहीं किया गया है (उदाहरण के लिए, Y , X का एक sinusoidal फ़ंक्शन है।X, या एक द्विघात फ़ंक्शन, या यहां तक ​​कि एक सीधी रेखा जो कुछ बिंदु पर ढलान को बदलती है)। गैर-रैखिकता को संबोधित करने के लिए मेरा अपना पसंदीदा दो-चरण दृष्टिकोण है (1) Y और X बीच विशिष्ट nonlinear कार्यात्मक संबंधों का सुझाव देने के लिए कुछ प्रकार के गैर-पैरामीट्रिक चौरसाई रिग्रेशन करते हैं (जैसे, LOWESS , या GAM s का उपयोग करके , आदि)। और (2) या तो एक बहु प्रतिगमन कि में nonlinearities शामिल का उपयोग कर एक कार्यात्मक संबंध निर्दिष्ट करने के लिए X , (जैसे, YX+X2 ), या एक nonlinear कम से कम वर्गों प्रतिगमन मॉडल है कि एक्स (जैसे के मापदंडों में nonlinearities शामिल YX+max(Xθ,0) , जहांθ बिंदु है जहां से प्रतिगमन रेखा का प्रतिनिधित्वY परX ढलान बदलता है)।

  2. एक और सामान्य रूप से वितरित अवशिष्टों की धारणा है। कभी-कभी कोई वैध रूप से गैर-सामान्य अवशेषों के साथ एक ओएलएस संदर्भ में दूर हो सकता है; उदाहरण के लिए, लुमली टी, एमर्सन एस (2002) द इंपोर्टेंस ऑफ द नॉर्मलिटी असेसमेंट इन लार्ज पब्लिक हेल्थ डेटा सेट्ससार्वजनिक स्वास्थ्य की वार्षिक समीक्षा । 23: 151-69। कभी-कभी, कोई नहीं कर सकता (फिर, Anscombe लेख देखें)।

y


2
धन्यवाद! कुछ सांख्यिकी पाठ्यक्रम की स्लाइड्स में यह कहा गया है कि यदि अनुमान विफल हो जाते हैं तो आप वाई को बदलने या व्याख्यात्मक चर को बदलने की कोशिश कर सकते हैं। जब मैं उदाहरण lm (Y ^ 0.3 ~ + X1 + X2 + ...) के लिए Y करके रूपांतरण करता हूं, तब मेरे अवशिष्ट सामान्य रूप से वितरित होते हैं। क्या यह एक वैध बात है?
स्टीफन

@Stefan हाँ! प्रतिक्रिया को बदलना अक्सर एक अच्छी बात होती है log, और साधारण बिजली रूपांतरण आम हैं।
ग्रेगोर

Var(f(x)f(Var(x))lnY=β0+βXX+εβXeβXβXeCIβX

@ एलेक्सिस: ये पृष्ठ क्यों कहते हैं कि चर को सामान्य रूप से वितरित किया जाना है? (1) pareonline.net/getvn.asp?n=2&v=8 (2) सांख्यिकीसंयोजन.
stackoverflowuser2010

7
Y=β0+βXX+εεN(0,σ)Y=3+0.5×X+N(0,1)YXβ03,βX0.5XY

11

आपकी पहली समस्याएं हैं

  • आपके आश्वासनों के बावजूद, अवशिष्ट प्लॉट दिखाता है कि सशर्त अपेक्षित प्रतिक्रिया फिट किए गए मूल्यों में रैखिक नहीं है; मतलब के लिए मॉडल गलत है।

  • आपके पास निरंतर भिन्नता नहीं है। विचरण के लिए मॉडल गलत है।

आप उन समस्याओं के साथ सामान्यता का आकलन भी नहीं कर सकते ।


कृपया विस्तृत करें कि आपने भूखंडों को देखकर रैखिकता के बारे में कैसे निष्कर्ष निकाला है? मैं समझता हूं कि होमोसकेडिसिटी धारणा यहाँ नहीं मिली है।
डॉ निशा अरोड़ा

y^y^=30060<00-3030-60>60), एक सीधी रेखा का अपना सर्वश्रेष्ठ अनुमान लगाएं। मेरे लिए मध्य दो लगभग संयोग हैं, इसलिए मैंने उनकी पंक्तियों को जोड़ा, कुछ इस
Glen_b -Reinstate Monica

मध्य आधे में, लगभग सभी अवशेष नकारात्मक हैं, बाहरी हिस्सों में लगभग सभी अवशेष सकारात्मक हैं। ये नहीं हैं कि यादृच्छिक अवशेष कैसे दिखते हैं।
Glen_b -Reinstate मोनिका

धन्यवाद, @Glen_b एक लंबे अंतराल के बाद, मैं अपनी अवधारणाओं पर फिर से गौर कर रहा हूं ताकि पहली बार में कल्पना न की जा सके।
डॉ निशा अरोड़ा

हालांकि यहां पर जाने के लिए बहुत कुछ नहीं है, मुझे उम्मीद है कि मूल डेटा गैर-नकारात्मक हैं, और या तो सामान्यीकृत रैखिक मॉडल (शायद लॉग-लिंक के साथ एक गामा) या एक परिवर्तन (संभावना है कि एक लॉग-ट्रांसफॉर्मेशन) अधिक उपयुक्त विकल्प होगा ।
Glen_b -Reinstate मोनिका

3

मैं यह नहीं कहूंगा कि रैखिक मॉडल पूरी तरह से बेकार है। हालाँकि, इसका मतलब है कि आपका मॉडल आपके डेटा को सही ढंग से / पूरी तरह से स्पष्ट नहीं करता है। एक हिस्सा है जहां आपको यह तय करना होगा कि मॉडल "पर्याप्त अच्छा" है या नहीं।

आपके पहले प्रश्न के लिए, मुझे नहीं लगता कि एक रेखीय प्रतिगमन मॉडल मानता है कि आपके आश्रित और स्वतंत्र चर को सामान्य होना चाहिए। हालांकि, अवशिष्टों की सामान्यता के बारे में एक धारणा है।

आपके दूसरे प्रश्न के लिए, दो अलग-अलग चीजें हैं जिन पर आप विचार कर सकते हैं:

  1. विभिन्न प्रकार के मॉडल की जाँच करें। एक अन्य मॉडल आपके डेटा की व्याख्या करने के लिए बेहतर हो सकता है (उदाहरण के लिए, गैर-रेखीय प्रतिगमन, आदि)। आपको अभी भी जांचना होगा कि इस "नए मॉडल" की धारणाओं का उल्लंघन नहीं किया गया है।
  2. प्रतिक्रिया (परिणाम) को समझाने के लिए आपके डेटा में पर्याप्त कोवरिएट्स (आश्रित चर) नहीं हो सकते हैं। इस मामले में, आप कुछ और नहीं कर सकते। कभी-कभी, हम यह जांचने के लिए स्वीकार कर सकते हैं कि क्या अवशेष एक अलग वितरण (जैसे टी-वितरण) का पालन करते हैं, लेकिन यह आपके लिए मामला नहीं लगता है।

आपके प्रश्न के अतिरिक्त, मैं देखता हूं कि आपका QQPlot "सामान्यीकृत" नहीं है। आमतौर पर भूखंड को देखना आसान होता है जब आपके अवशेषों को मानकीकृत किया जाता है, तो stdres देखें ।

stdres(lmobject)

मुझे उम्मीद है कि यह आपकी मदद करेगा, हो सकता है कि कोई और मुझे इससे बेहतर समझाएगा।


0

पिछले उत्तर के अलावा, मैं आपके मॉडल को बेहतर बनाने के लिए कुछ बिंदुओं को जोड़ना चाहूंगा:

  1. कभी-कभी अवशिष्टों की गैर-सामान्यता बाहरी लोगों की उपस्थिति को इंगित करती है। अगर ऐसा है, तो पहले आउटलेर को संभालें।

  2. हो सकता है कि कुछ परिवर्तनों का उपयोग उद्देश्य को हल करे।

  3. इसके अतिरिक्त, बहु-बोलचाल से निपटने के लिए, आप https://www.researchgate.net/post/My_data_has_the_problem_of_multicolinearity_Removing_unique_unariables_using_variance_inflation_factor_Vif_didnt_work_s_s देखें।


-1

आपके दूसरे प्रश्न के लिए,

व्यवहार में मेरे साथ कुछ ऐसा हुआ था कि मैं कई स्वतंत्र चर के साथ अपनी प्रतिक्रिया से आगे निकल गया था। ओवरफिटेड मॉडल में मेरे पास गैर सामान्य अवशेष थे। हालांकि, नतीजे यह बताते हैं कि सकारात्मकता का खुलासा करने के लिए पर्याप्त सबूत नहीं थे कि कुछ सहशिक्षक शून्य थे (0.2 से पी-मान grater के साथ)। इसलिए एक दूसरे मॉडल में, एक पिछड़ी हुई चयन प्रक्रिया के बाद चर को खारिज करते हुए मुझे सामान्य अवशिष्ट मिला, दोनों को रेखांकन एक qqplot के साथ और शापिरो-विल्क परीक्षण के साथ हाइपोटिस परीक्षण द्वारा मान्य था। जांचें कि क्या यह आपका मामला हो सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.