अवशिष्ट और आश्रित चर के बीच अपेक्षित सहसंबंध क्या है?


26

कई रैखिक प्रतिगमन में, मैं समझ सकता हूं कि अवशिष्ट और भविष्यवक्ताओं के बीच संबंध शून्य हैं, लेकिन अवशिष्ट और मानदंड चर के बीच अपेक्षित सहसंबंध क्या है? क्या यह शून्य या अत्यधिक सहसंबद्ध होने की उम्मीद है? इस का मतलब क्या है?


4
"कसौटी चर" क्या है?
whuber

2
@ जब मैं अनुमान लगा रहा हूं कि जैलर प्रतिक्रिया / परिणाम / निर्भर / आदि का जिक्र कर रहा है। चर। davidmlane.com/hyperstat/A101702.html कई ऐसे नामों को देखना दिलचस्प है, जिन्हें इस तरह से जाना जाता है: en.wikipedia.org/wiki/…
जेरोमे एंग्लीम

@Jeromy धन्यवाद! मैंने अनुमान लगाया था कि यह अर्थ था लेकिन निश्चित नहीं था। मेरे लिए यह एक नया शब्द है - और विकिपीडिया पर, जाहिर है।
whuber

मैंने सोचा होगा कि यह याE[R2]R2=[corr(y,y^)]2
probabilityislogic

y=f(x)+e , जहाँ प्रतिगमन कार्य है, e त्रुटि है, और Cov (f (x), e) = 0 है । फिर संवाददाताओं (y, e) = एसडी (e) / एसडी (y) = \ sqrt {1-R ^ 2} । वह नमूना आँकड़ा है; इसका अपेक्षित मूल्य समान होगा लेकिन संदेशात्मक होगा। feCov(f(x),e)=0Corr(y,e)=SD(e)/SD(y)=1R2
रे कोपमैन

जवाबों:


20

प्रतिगमन मॉडल में:

yi=xiβ+ui

सामान्य धारणा यह है कि , एक iid नमूना है। ऐसी धारणाओं के तहत कि और पास पूर्ण रैंक है, साधारण न्यूनतम वर्ग अनुमानक:मैं = 1 , , n E x i u i = 0 E ( x i x ) i )(yi,xi,ui)i=1,...,nExiui=0E(xixi)

β^=(i=1nxixi)1i=1xiyi

सुसंगत और asymptotically सामान्य है। एक अवशिष्ट और प्रतिक्रिया चर के बीच अपेक्षित सहसंयोजक है:

Eyiui=E(xiβ+ui)ui=Eui2

यदि हम आगे यह मान लेते हैं कि और , हम और उसके प्रतिगामी अवशेषों के बीच की गणना कर सकते हैं :( यू 2 मैं | x 1 , , X n ) = σ 2 y मैंE(ui|x1,...,xn)=0E(ui2|x1,...,xn)=σ2yi

Eyiu^i=Eyi(yixiβ^)=E(xiβ+ui)(uixi(β^β))=E(ui2)(1Exi(j=1nxjxj)1xi)

अब सहसंबंध प्राप्त करने के लिए हमें और गणना करने की आवश्यकता है । परिणाम यह निकलावार ( यू मैं )Var(yi)Var(u^i)

Var(u^i)=E(yiu^i),

इसलिये

Corr(yi,u^i)=1Exi(j=1nxjxj)1xi

अब शब्द आता है हैट मैट्रिक्स के विकर्ण से , जहां । मैट्रिक्स , बेरोजगार है, इसलिए यह निम्नलिखित संपत्ति को संतुष्ट करता है एच=एक्स( एक्स ' एक्स ) - 1 एक्स ' एक्स=[ एक्स मैं ,, x N ] एचxi(j=1nxjxj)1xiH=X(XX)1XX=[xi,...,xN]H

trace(H)=ihii=rank(H),

जहाँ का विकर्ण शब्द है । में रैखिक स्वतंत्र चर की संख्या है , जो आमतौर पर चर की संख्या है। इसे हम कहते हैं । की संख्या नमूना आकार । तो हमारे पास nonnegative शब्द हैं जो तक के योग होने चाहिए । आमतौर पर , से बहुत बड़ा होता है , इसलिए बहुत से शून्य के करीब होंगे, जिसका अर्थ है कि अवशिष्ट और प्रतिक्रिया चर के बीच का संबंध टिप्पणियों के बड़े हिस्से के लिए 1 के करीब होगा।hiiHrank(H)xiphiiNNpNphii

प्रभावशाली टिप्पणियों के निर्धारण के लिए विभिन्न प्रतिगमन डायग्नोस्टिक्स में शब्द का उपयोग किया जाता है।hii


10
+1 यह बिल्कुल सही विश्लेषण है। लेकिन आप नौकरी खत्म क्यों नहीं करते और सवाल का जवाब क्यों देते हैं? ओपी पूछता है कि क्या यह सहसंबंध "उच्च" है और इसका क्या मतलब हो सकता है
whuber

तो आप कह सकते हैं कि सहसंबंध मोटे तौर पर1pN
संभाव्यता

1
सहसंबंध हर अवलोकन के लिए अलग है, लेकिन हाँ आप कह सकते हैं कि, बशर्ते एक्स में आउटलेयर न हो।
12

21

सहसंबंध पर निर्भर करता है । यदि अधिक है, तो इसका मतलब है कि आपके आश्रित चर में बहुत भिन्नता को आपके स्वतंत्र चर में भिन्नता के लिए जिम्मेदार ठहराया जा सकता है, न कि आपकी त्रुटि अवधि को।R2R2

हालाँकि, यदि कम है, तो इसका मतलब है कि आपके आश्रित चर में भिन्नता आपके स्वतंत्र चर में भिन्नता से असंबंधित है, और इस प्रकार त्रुटि शब्द से संबंधित होना चाहिए।R2

निम्नलिखित मॉडल पर विचार करें:

Y=Xβ+ε , जहां और असंबंधित हैं।YX

सीएलटी धारण करने के लिए पर्याप्त नियमितता शर्तों को मानते हुए।

β^X और Y के असंबंधित होने के बाद से परिवर्तित हो जाएगा । इसलिए Y = एक्स β हमेशा शून्य हो जाएगा। इस प्रकार, ε : = वाई - वाई = वाई - 0 = वाईε और वाई पूरी तरह से सहसंबद्ध होते हैं !!!0XYY^=Xβ^ε:=YY^=Y0=YεY

अन्य सभी को निश्चित रखते हुए, को बढ़ाने से त्रुटि पर निर्भरता के बीच संबंध कम हो जाएगा। अलार्म के लिए एक मजबूत सहसंबंध जरूरी नहीं है। इसका मतलब यह हो सकता है कि अंतर्निहित प्रक्रिया शोर है। हालांकि, एक कम आर 2 (और इसलिए त्रुटि और आश्रित के बीच उच्च सहसंबंध) मॉडल गलतकरण के कारण हो सकता है।R2R2


मैं इस सवाल का जवाब, भ्रामक भाग में "के अपने प्रयोग के माध्यम से लगता है " मॉडल में त्रुटि नियम और बच के लिए दोनों खड़े करने के लिए वाई - वाई । भ्रम का एक अन्य बिंदु "अभिसरण" का संदर्भ है, भले ही साक्ष्य में ऐसा कुछ भी न हो, जिसमें अभिसरण लागू हो। यह धारणा कि एक्स और वाई असंबंधित हैं, विशेष लगता है और सामान्य परिस्थितियों का चित्रण नहीं है। यह सब जो कुछ भी इस जवाब को कहने की कोशिश कर रहा है या जो आम तौर पर सच है, अस्पष्ट है। εYY^XY
whuber

17

मुझे लगता है कि यह विषय काफी दिलचस्प है और वर्तमान उत्तर दुर्भाग्य से अपूर्ण या आंशिक रूप से भ्रामक हैं - इस प्रश्न की प्रासंगिकता और उच्च लोकप्रियता के बावजूद।

शास्त्रीय OLS ढांचे की परिभाषा के अनुसार होना चाहिए के बीच कोई रिश्ता और यूŷu^ के बाद से बच प्राप्त साथ असहसंबद्ध निर्माण प्रति कर रहे हैं, OLS आकलनकर्ता पाने। Homoskedasticity के तहत संपत्ति को कम करने वाला विचरण यह सुनिश्चित करता है कि अवशिष्ट त्रुटि बेतरतीब ढंग से फिट किए गए मूल्यों के आसपास फैली हुई है। इसे औपचारिक रूप से दिखाया जा सकता है:ŷ

= पी σ 2 - पी σ 2 = 0

Cov(ŷ,û|X)=Cov(Py,My|X)=Cov(Py,(IP)y|X)=PCov(y,y)(IP)
=Pσ2Pσ2=0

कहाँ और पी : idempotent मैट्रिक्स के रूप में परिभाषित कर रहे हैं पी = एक्स ( एक्स ' एक्स ) एक्स ' और एम = मैं - पीMPP=X(XX)XM=IP

यह परिणाम सख्त अतिशयोक्ति और समरूपता पर आधारित है, और व्यावहारिक रूप से बड़े नमूनों में है। उनके uncorrelatedness के लिए अंतर्ज्ञान निम्नलिखित है: फिट मान पर सशर्त एक्स के आसपास केंद्रित कर रहे हैं यू , जो के रूप में लगा रहे हैं स्वतंत्र रूप से और हूबहू वितरित किए। हालांकि, सख्त exogeneity और homoskedasticity धारणा से कोई विचलन व्याख्यात्मक चर अंतर्जात होने का कारण बन और के बीच एक अव्यक्त सहसंबंध को प्रोत्साहित कर सकता है यू और yŷXûûŷ

अब बच के बीच संबंध "मूल" y एक पूरी तरह से अलग कहानी है:ûy

Cov(y,û|X)=Cov(yMy|X)=Cov(y,(1P)y)=Cov(y,y)(1P)=σ2M

कुछ सिद्धांत में जाँच और हम जानते हैं कि इस सहप्रसरण मैट्रिक्स अवशिष्ट की सहप्रसरण मैट्रिक्स के समान है यू ही (सबूत छोड़े गए)। हमारे पास है:u^

Var(û)=σ2M=Cov(y,û|X)

हम दोनों के बीच (अदिश) सहप्रसरण गणना करने के लिए चाहते हैं, तो और यू के रूप में ओ पी से अनुरोध किया है, हम प्राप्त:yu^

Covscalar(y,û|X)=Var(û|X)=(ui2)/N

(= सहसंयोजक मैट्रिक्स के विकर्ण प्रविष्टियों के योग और एन द्वारा विभाजित)

उपरोक्त सूत्र एक दिलचस्प बिंदु इंगित करता है। हम regressing द्वारा संबंध का परीक्षण तो बच पर यू (+ निरंतर), ढलान गुणांक β यू , y = 1 , जो आसानी से प्राप्त किया जा सकता है जब हम से ऊपर अभिव्यक्ति विभाजित वार ( यू | एक्स )yu^βu^,y=1Var(û|X)

दूसरी ओर, सहसंबंध संबंधित मानक विचलन द्वारा मानकीकृत सहसंयोजक है। अब, बच के विचरण मैट्रिक्स है , जबकि के विचरण y है σ 2 मैं । सहसंबंध Corr ( y , यू ) इसलिए हो जाता है:σ2Myσ2ICorr(y,û)

Corr(y,û)=Var(û)Var(u^)Var(y)=Var(û)Var(y)=Var(û)σ2

यह मुख्य परिणाम है जो एक रैखिक प्रतिगमन में पकड़ना चाहिए। अंतर्ज्ञान है कि है त्रुटि अवधि का सच विचरण और विचरण बच के आधार पर के लिए एक प्रॉक्सी के बीच त्रुटि व्यक्त करता है। सूचना है कि विचरण y के विचरण के बराबर है y प्लस बच के विचरण यू । तो यह अधिक सहज रूप से फिर से लिखा जा सकता है:Corr(y,û)yy^u^

Corr(y,û)=11+Var(y)^Var(û)

काम पर यहां दो ताकतें हैं। अगर हम प्रतिगमन लाइन का एक बड़ा फिट है, सह-संबंध की वजह से कम होने की उम्मीद है । दूसरी ओर, वार ( y ) के रूप में यह बिना शर्त है और पैरामीटर अंतरिक्ष में एक पंक्ति सम्मान करने के लिए एक फ़ज का एक सा है। एक अनुपात के भीतर बिना शर्त और सशर्त रूपांतरों की तुलना करना सब के बाद एक उपयुक्त संकेतक नहीं हो सकता है। शायद, यही कारण है कि यह शायद ही कभी अभ्यास में किया जाता है।Var(û)0Var(y^)

एक प्रयास प्रश्न निष्कर्ष: के बीच संबंध और यू सकारात्मक है और बच के विचरण और सच त्रुटि अवधि के विचरण के अनुपात, में बिना शर्त विचरण द्वारा प्रॉक्सी से संबंधित है y । इसलिए, यह एक भ्रामक संकेतक है।yûy

होते हुए भी इस अभ्यास हमें कामकाज और एक OLS प्रतिगमन के निहित सैद्धांतिक मान्यताओं पर कुछ अंतर्ज्ञान दे सकता है, हम शायद ही कभी के बीच संबंध का मूल्यांकन और यू सही त्रुटि शब्द के गुणों की जाँच के लिए निश्चित रूप से अधिक स्थापित परीक्षण हैं। दूसरी बात यह है कि बच त्रुटि अवधि नहीं हैं, और बच गया पर परीक्षण को ध्यान में रखना यू सच त्रुटि अवधि पर विशेषताओं की है कि मेकअप भविष्यवाणियों यू सीमित हैं और उनकी वैधता की जरूरत अत्यंत सावधानी से नियंत्रित किया जा करने के लिए।yûûu

उदाहरण के लिए, मैं यहां पिछले पोस्टर द्वारा दिए गए एक बयान को इंगित करना चाहूंगा। ऐसा कहा जाता है कि,

"यदि आपके अवशेषों को आपके स्वतंत्र चर के साथ सहसंबद्ध किया जाता है, तो आपका मॉडल हेटेरोसेडस्टिक है ..."

मुझे लगता है कि इस संदर्भ में पूरी तरह से मान्य नहीं हो सकता है। मानो या न मानो, लेकिन OLS बच निर्माण से कर रहे हैं स्वतंत्र चर के साथ असहसंबद्ध जा करने के लिए किए गए एक्स कश्मीर । इसे देखने के लिए, विचार करें:ûxk

= एक्स ' y - एक्स ' एक्स ( एक्स ' एक्स ) एक्स ' y = एक्स ' y - एक्स '=

Xui=XMy=X(IP)y=XyXPy
=XyXX(XX)Xy=XyXy=0
Xui=0Cov(X,ui|X)=0Cov(xki,ui|xki)=0

हालाँकि, आपने दावे सुने होंगे कि एक व्याख्यात्मक चर त्रुटि शब्द के साथ संबद्ध है । ध्यान दें कि इस तरह के दावे एक सच्चे अंतर्निहित प्रतिगमन मॉडल के साथ पूरी आबादी के बारे में मान्यताओं पर आधारित हैं , कि हम पहले हाथ का निरीक्षण नहीं करते हैं। नतीजतन, के बीच संबंध की जाँच और यू एक रेखीय OLS ढांचे में व्यर्थ लगता है। हालांकि, जब के लिए परीक्षण heteroskedasticity , हम यहाँ खाते में दूसरा सशर्त क्षण ले, उदाहरण के लिए, हम पर वर्ग बच निकासी एक्स या के एक समारोह एक्सyûXX, जैसा कि अक्सर एफजीएसएल अनुमानकों के साथ होता है। यह सादे सहसंबंध के मूल्यांकन से अलग है। मुझे उम्मीद है कि इससे मामलों को और अधिक स्पष्ट करने में मदद मिलेगी।


1
नोट हम है कि (वैसे भी कम से कम)। इससेआरआर(y, यू )=var(u^)var(y)=SSETSS=1R2 जो बाद के पैराग्राफ में आपके द्वारा उल्लिखित के बारे में कुछ और अंतर्ज्ञान है। corr(y,u^)=1R2
probabilityislogic

2
इस उत्तर के बारे में मुझे जो दिलचस्प लगा वह यह है कि सहसंबंध हमेशा सकारात्मक होता है।
प्रोबेबिलिसलॉजिक

आप कहते हैं कि मैट्रिक्स है, फिर भी आप इसे विभाजित करते हैं। Var(y)
mpiktas

@probabilityislogic: निश्चित नहीं कि मैं आपके कदम का अनुसरण कर सकता हूं। यह तब स्क्वेररूट 1+ (1/1-R ^ 2) के तहत होगा, जो (2-R ^ 2) / (1-R ^ 2) है? फिर भी यह सच है कि यह सकारात्मक है। अंतर्ज्ञान यह है कि यदि आपके पास एक स्कैल्पलॉट के माध्यम से एक रेखा है, और आप उस रेखा से त्रुटियों पर इस रेखा को फिर से प्राप्त करते हैं, तो यह स्पष्ट होना चाहिए कि जैसे उस रेखा का मान y बढ़ता है, वैसे ही अवशिष्टों का मान भी बढ़ता है। इसका कारण यह है कि अवशेष निर्माण द्वारा y पर सकारात्मक रूप से निर्भर होते हैं।
माज़े

@mpiktas: इस मामले में मैट्रिक्स एक स्केलर बन जाता है क्योंकि हम केवल एक आयाम में y का व्यवहार कर रहे हैं।
माज़े

6

आदम का जवाब गलत है। यहां तक ​​कि एक मॉडल के साथ जो डेटा को पूरी तरह से फिट करता है, फिर भी आप अवशिष्ट और निर्भर चर के बीच उच्च सहसंबंध प्राप्त कर सकते हैं। यही कारण है कि कोई प्रतिगमन पुस्तक आपको इस सहसंबंध की जांच करने के लिए नहीं कहती है। आप डॉ। ड्रेपर की "एप्लाइड रिग्रेशन एनालिसिस" पुस्तक पर उत्तर पा सकते हैं।


3
यहां तक ​​कि अगर सही है, तो यह सीवी के मानकों के अनुसार एक उत्तर की तुलना में अधिक है, @ जेफ। क्या आप अपने दावे का विस्तृत / समर्थन करेंगे? यहां तक ​​कि ड्रेपर एंड स्मिथ का सिर्फ एक पेज नंबर और संस्करण पर्याप्त होगा।
गंग - मोनिका

4

तो, अवशिष्ट आपके अस्पष्टीकृत विचरण हैं, आपके मॉडल की भविष्यवाणियों और आपके द्वारा मॉडलिंग किए जाने वाले वास्तविक परिणाम के बीच का अंतर। व्यवहार में, रैखिक प्रतिगमन के माध्यम से उत्पादित कुछ मॉडल शून्य के करीब सभी अवशिष्ट होंगे जब तक कि एक यांत्रिक या निश्चित प्रक्रिया का विश्लेषण करने के लिए रैखिक प्रतिगमन का उपयोग नहीं किया जा रहा हो।

आदर्श रूप से, आपके मॉडल से अवशिष्ट यादृच्छिक होना चाहिए, जिसका अर्थ है कि उन्हें आपके स्वतंत्र या निर्भर चर (जिसे आप मानदंड चर कहते हैं) के साथ संबंध नहीं होना चाहिए। रैखिक प्रतिगमन में, आपका त्रुटि शब्द सामान्य रूप से वितरित किया जाता है, इसलिए आपके अवशेषों को भी सामान्य रूप से वितरित किया जाना चाहिए। यदि आपके पास महत्वपूर्ण आउटलेयर हैं, या यदि आपके अवशेषों पर आपके आश्रित चर या आपके स्वतंत्र चर के साथ संबंध हैं, तो आपको अपने मॉडल के साथ समस्या है।

यदि आपके पास महत्वपूर्ण अवशेष हैं और आपके अवशेषों का गैर-सामान्य वितरण है, तो आउटलेयर आपके वजन (बेतास) को तिरछा कर सकते हैं, और मैं आपके वजन पर आपके अवलोकन के प्रभाव की जांच करने के लिए DFBETAS की गणना करने का सुझाव दूंगा। यदि आपके अवशेषों को आपके आश्रित चर के साथ सहसंबद्ध किया जाता है, तो काफी मात्रा में अस्पष्टीकृत विचरण होता है, जिसका आप हिसाब नहीं लगा रहे हैं। यदि आप एक ही चीज़ के बार-बार अवलोकन का विश्लेषण कर रहे हैं, तो आप इसे देख सकते हैं। यह देखने के लिए जाँच की जा सकती है कि क्या आपके अवशेष आपके समय या सूचकांक चर के साथ सहसंबद्ध हैं। यदि आपके अवशेषों को आपके स्वतंत्र चर के साथ सहसंबद्ध किया जाता है, तो आपका मॉडल विषमलैंगिक है (देखें: http://en.wikipedia.org/wiki/Heteroscedasticity)। यदि आपके इनपुट चर सामान्य रूप से वितरित किए जाते हैं, तो आपको जांच (अगर आपने पहले से नहीं की है), और यदि नहीं, तो आपको इसे और अधिक बनाने के लिए अपने डेटा को स्केल करना या बदलना (सबसे सामान्य प्रकार लॉग और स्क्वायर-रूट हैं) पर विचार करना चाहिए। सामान्यीकृत।

दोनों के मामले में, आपके अवशेष, और आपके स्वतंत्र चर, आपको एक क्यूक्यू-प्लॉट लेना चाहिए, साथ ही एक कोलमोगोरोव-स्मिरनोव परीक्षण करना चाहिए (यह विशेष कार्यान्वयन कभी-कभी लिलिफ़ोर टेस्ट के रूप में संदर्भित किया जाता है) यह सुनिश्चित करने के लिए कि आपके मान एक सामान्य वितरण फिट।

तीन चीजें जो त्वरित हैं और इस समस्या से निपटने में मददगार हो सकती हैं, आपके अवशेषों के मध्यिका की जांच कर रही हैं, यह यथासंभव शून्य के करीब होना चाहिए (त्रुटि शब्द फिट होने के परिणामस्वरूप माध्य लगभग हमेशा शून्य होगा। रैखिक प्रतिगमन में), आपके अवशेषों में ऑटोकॉर्पलेशन के लिए एक डर्बिन-वाटसन परीक्षण (विशेषकर जैसा कि मैंने पहले उल्लेख किया है, यदि आप एक ही चीजों के कई अवलोकनों को देख रहे हैं), और एक आंशिक अवशिष्ट भूखंड का प्रदर्शन करने से विषमलैंगिकता और आउटलेयर की तलाश में मदद मिलेगी।


आपका बहुत बहुत धन्यवाद। आपकी व्याख्या मेरे लिए बहुत उपयोगी है।
ज्वेल डिक

1
+1 अच्छा, व्यापक उत्तर। मैं 2 बिंदुओं पर नाइटपिक करने जा रहा हूं। "यदि आपके अवशेषों को आपके स्वतंत्र चर के साथ सहसंबद्ध किया जाता है, तो आपका मॉडल विषमलैंगिक है" - मैं कहूंगा कि यदि आपके अवशेषों का विचरण एक स्वतंत्र चर के स्तर पर निर्भर करता है, तो आपके पास विषमलैंगिकता है। इसके अलावा, मैंने कोलमोगोरोव-स्मिरनोव / लिलिफ़ोरर्स परीक्षणों को "कुख्यात अविश्वसनीय" के रूप में सुना है और व्यावहारिक रूप से मैंने निश्चित रूप से इसे सच पाया है। क्यूक्यू प्लॉट या एक साधारण हिस्टोग्राम के आधार पर एक व्यक्तिपरक निर्धारण करने के लिए बेहतर है।
रोलैंडो 2

4
यह दावा कि "आपके मॉडल से अवशेष ... के साथ सहसंबद्ध नहीं होना चाहिए ... आपका ... आश्रित चर" आम तौर पर सही नहीं है, जैसा कि इस धागे पर अन्य उत्तरों में बताया गया है। क्या आप इस पोस्ट को सही मानेंगे?
गूँग - मोनिका

1
(-1) मुझे लगता है कि यह पोस्ट पूछे गए प्रश्न के लिए पर्याप्त प्रासंगिक नहीं है। यह सामान्य सलाह के रूप में अच्छा है, लेकिन शायद "गलत सवाल का सही जवाब" का मामला है।
probabilityislogic
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.