व्याख्यात्मक चर के साथ प्रतिगमन त्रुटि शब्द को कभी कैसे संबद्ध किया जा सकता है?


22

इस विकी पृष्ठ के पहले वाक्य का दावा है कि "अर्थमिति में, एक समरूपता समस्या तब होती है जब एक व्याख्यात्मक चर त्रुटि शब्द के साथ सहसंबद्ध होता है। 1 "

मेरा सवाल यह है कि यह कभी कैसे हो सकता है? क्या प्रतिगमन बीटा ऐसा नहीं चुना गया है कि त्रुटि शब्द डिजाइन मैट्रिक्स के स्तंभ स्थान के लिए ऑर्थोगोनल है?


9
प्रतिगमन बीटा को इस तरह चुना जाता है कि अवशिष्ट डिजाइन मैट्रिक्स के स्तंभ स्थान के लिए ऑर्थोगोनल है। और यह सच बीटा का एक भयानक अनुमान दे सकता है अगर त्रुटि शब्द डिजाइन मैट्रिक्स के स्तंभ स्थान के लिए ऑर्थोगोनल नहीं है! (यानी यदि आपका मॉडल प्रतिगमन द्वारा लगातार गुणांक का अनुमान लगाने के लिए आवश्यक मान्यताओं को संतुष्ट नहीं करता है)।
मैथ्यू गन

3
त्रुटि अवधि और डिजाइन मैट्रिक्स के कॉलम अंतरिक्ष के ओर्थोगोनालिटी नहीं है अपने आकलन विधि (जैसे। साधारण कम से कम वर्गों प्रतिगमन) की संपत्ति है, यह मॉडल की संपत्ति है (उदाहरण के लिए। yi=a+bxi+ϵi )।
मैथ्यू गन

मुझे लगता है कि आपका संपादन एक नया प्रश्न होना चाहिए क्योंकि आपको लगता है कि आप जो पूछ रहे हैं, वह काफी हद तक बदल गया है। आप हमेशा इसे वापस लिंक कर सकते हैं। (मुझे लगता है कि आपको इसे बेहतर तरीके से शब्द देने की आवश्यकता है, भी - जब आप "क्या प्रभाव होगा" लिखते हैं, तो मैं किस के प्रभाव पर स्पष्ट नहीं हूं ?) ध्यान दें कि एक नया प्रश्न पूछना आमतौर पर अधिक ध्यान देता है जो एक फायदा होगा? आपके लिए एक मौजूदा संपादन पर।
सिल्वरफ़िश

जवाबों:


28

आप "त्रुटि" शब्द के दो प्रकारों का सामना कर रहे हैं। विकिपीडिया वास्तव में त्रुटियों और अवशिष्टों के बीच इस अंतर को समर्पित एक लेख है ।

एक OLS प्रतिगमन में, बच गया (त्रुटि या अशांति अवधि के अपने ε^ वास्तव में गारंटी दी जाती है भविष्यवक्ता चर के साथ असहसंबद्ध किया जाना है, प्रतिगमन संभालने एक अवरोधन शब्द मौजूद है।

लेकिन "सच" त्रुटियों ε अच्छी तरह से उन लोगों के साथ जोड़ा जा सकता है, और यह है कि क्या endogeneity रूप में गिना जाता है।

चीजों को सरल रखने के लिए, प्रतिगमन मॉडल पर विचार करें (आप इसे अंतर्निहित " डेटा जनरेट करने की प्रक्रिया " या "DGP" के रूप में वर्णित कर सकते हैं , सैद्धांतिक मॉडल जिसे हम का मान उत्पन्न करने के लिए मानते हैं y):

yi=β1+β2xi+εi

कोई कारण नहीं, सिद्धांत, क्यों में है x के साथ सहसंबद्ध नहीं किया जा सकता ε हमारे मॉडल में, फिर भी ज्यादा हम इसे इस तरह से मानक OLS मान्यताओं का उल्लंघन नहीं करना पसंद करेंगे। उदाहरण के लिए, यह हो सकता है कि y अन्य चर है कि हमारे मॉडल से हटा दिया गया है पर निर्भर करता है, और इस अशांति अवधि में शामिल किया गया ( ε वह जगह है जहाँ हम सब के अलावा अन्य चीजों गांठ x को प्रभावित y )। इस लोप चर भी साथ जोड़ा जाता है, तो x , तो ε में बारी के साथ सहसंबद्ध किया जाएगा x और हम endogeneity है (विशेष रूप से, लोप-चर पूर्वाग्रह )।

जब आप उपलब्ध डेटा पर अपने प्रतिगमन मॉडल का अनुमान लगाते हैं, तो हम प्राप्त करते हैं

yi=β^1+β^2xi+ε^i

जिस तरह से काम करता है OLS * का, बच ε साथ असहसंबद्ध हो जाएगा एक्स । लेकिन इसका मतलब यह नहीं है कि हम बचा endogeneity है - यह सिर्फ मतलब है कि हम इसे के बीच संबंध का विश्लेषण करके पता नहीं लगा सकते ε और एक्स (संख्यात्मक त्रुटि अप करने के लिए) है, जो हो जाएगा शून्य। और क्योंकि OLS मान्यताओं का उल्लंघन हो गया है, इसलिए हम अच्छे गुणों की गारंटी नहीं देते हैं, जैसे निष्पक्षता, हम OLS के बारे में बहुत आनंद लेते हैं। हमारा अनुमान β 2 पक्षपातपूर्ण हो जाएगा।ε^xε^xβ^2


तथ्य यह है कि ε साथ असहसंबद्ध है एक्स "सामान्य समीकरण" हम गुणांकों के लिए अपनी तरफ से पूरी अनुमान चयन करने के लिए उपयोग करने से तुरंत इस प्रकार है।()ε^x

आप मैट्रिक्स सेटिंग करने के लिए इस्तेमाल नहीं कर रहे हैं, और मैं ऊपर मेरी उदाहरण में प्रयुक्त द्विचर मॉडल पर बने रहें तो वर्ग बच का योग है और इष्टतम खोजने के लिए 1 = β 1 और बी 2 =S(b1,b2)=i=1nεi2=i=1n(yib1b2xi)2b1=β^1जो इसे कम करता है, हम सामान्य समीकरणों को देखते हैं, सबसे पहले अनुमानित अवरोधन के लिए पहली-क्रम स्थिति:b2=β^2

Sb1=i=1n2(yib1b2xi)=2i=1nε^i=0

जो दिखाता है कि बच की राशि (और इसलिए मतलब), शून्य है तो बीच सहप्रसरण के लिए सूत्र ε और किसी भी चर एक्स तो करने के लिए कम कर देता है 1ε^x। हम देखते हैं कि अनुमानित ढलान के लिए पहले-क्रम की स्थिति पर विचार करके यह शून्य है, जो कि है1n1i=1nxiε^i

Sb2=i=1n2xi(yib1b2xi)=2i=1nxiε^i=0

यदि आप मेट्रिसेस के साथ काम करने के आदी हैं, तो हम इसे परिभाषित करके कई प्रतिगमन को सामान्य कर सकते हैं ; पहले क्रम हालत को कम करने के एस ( ) इष्टतम पर = β है:S(b)=εε=(yXb)(yXb)S(b)b=β^

dSdb(β^)=ddb(yybXyyXb+bXXb)|b=β^=2Xy+2XXβ^=2X(yXβ^)=2Xε^=0

यह की प्रत्येक पंक्ति का अर्थ है , और इसलिए की प्रत्येक स्तंभ एक्स , ओर्थोगोनल है ε । तो अगर डिजाइन मैट्रिक्स एक्स लोगों के एक स्तंभ (जो होता है आपका मॉडल, अवरोधन अवधि है) है, हम होना आवश्यक है Σ n मैं = 1 ε मैं = 0 तो बच शून्य राशि और शून्य मतलब है। के बीच सहप्रसरण ε और किसी भी चर एक्स फिर से है 1XXε^Xi=1nε^i=0ε^xऔर के लिए किसी भी चरxहमारे मॉडल में शामिल हम जानते हैं कि इस योग शून्य है, क्योंकि ε डिजाइन मैट्रिक्स के हर स्तंभ के लिए ओर्थोगोनल है। इसलिए बीच शून्य सहप्रसरण, और शून्य संबंध है, ε और किसी भी भविष्यवक्ता चरएक्स1n1i=1nxiε^ixε^ε^x

यदि आप चाहें, चीजों के लिए अधिक ज्यामितीय दृश्य , हमारी इच्छा है कि y यथासंभव निकट के रूप में झूठ y रास्ते से एक पायथागॉरियन वस्तु के रूप में , और तथ्य यह है कि y डिजाइन मैट्रिक्स के कॉलम अंतरिक्ष के लिए विवश है एक्स , हुक्म है कि y उस स्तंभ स्थान पर देखे गए y का ऑर्थोगोनल प्रक्षेपण होना चाहिए । इसलिए बच के वेक्टर ε = y - y ओर्थोगोनल के हर स्तंभ है एक्स , लोगों के वेक्टर सहित 1 ny^y y^Xy^yε^=yy^X1nयदि इंटरसेप्ट शब्द मॉडल में शामिल है। पहले के रूप में, इसका मतलब है कि अवशेषों का योग शून्य है, जहां के अन्य स्तंभों के साथ अवशिष्ट वेक्टर की ऑर्थोगोनलिटी सुनिश्चित करता है, यह उन सभी भविष्यवक्ताओं के साथ असंबंधित है।X

Vectors in subject space of multiple regression

लेकिन कुछ भी नहीं हम यहाँ किया है के बारे में सही त्रुटियों कुछ भी कहते हैं । मान लिया जाये कि हमारे मॉडल में एक अवरोधन अवधि है, बच ε केवल साथ uncorrelated हैं एक्स जिस तरह से हम अनुमान लगाने के लिए प्रतिगमन गुणांक चुना है के एक गणितीय परिणाम के रूप में बीटाजिस तरह से हम अपने चुने हुए β हमारे भविष्यवाणी मूल्यों को प्रभावित करता है y और इसलिए हमारे बच ε = y - y । अगर हम चुनें β OLS से, हम सामान्य समीकरणों को हल करना चाहिए और इन लागू है कि हमारे अनुमान के अनुसार बचεε^xβ^β^y^ε^=yy^β^ साथ uncorrelated हैंएक्स। की हमारी पसंद β को प्रभावित करता है y नहीं बल्कि(y)और इसलिए सच त्रुटियों पर कोई शर्त लगाताε=y-(y)। यह एक गलती को लगता है कि हो सकता है ε के साथ अपने uncorrelatedness किसी भी तरह "प्राप्त" किया गया हैएक्सOLS धारणा से किεसाथ असहसंबद्ध होना चाहिएएक्स। सामान्य समीकरणों से असंबद्धता उत्पन्न होती है।ε^xβ^y^E(y)ε=yE(y)ε^xεx


1
करता है अपने मतलब प्रतिगमन जनसंख्या डेटा का उपयोग कर? या इसका ठीक-ठीक क्या मतलब है? yi=β1+β2xi+εi
उत्तर के

@ user1559897 हां, कुछ पाठ्यपुस्तक इसे "जनसंख्या प्रतिगमन रेखा" या पीआरएल कहेंगी। यह आबादी के लिए अंतर्निहित सैद्धांतिक मॉडल है; आप इसे कुछ स्रोतों में "डेटा जनरेट करने की प्रक्रिया" भी कह सकते हैं। (मैं यह कहते हुए थोड़ा सावधान हो गया कि यह "जनसंख्या पर प्रतिगमन" है ... यदि आपके पास एक परिमित जनसंख्या है, जैसे संयुक्त राज्य अमेरिका के 50 राज्य, जिस पर आप प्रतिगमन करते हैं, तो यह बिल्कुल सच नहीं है (यदि आप वास्तव में अपने सॉफ़्टवेयर में कुछ डेटा पर आबादी चला रहे हैं, तो आप वास्तव में प्रतिगमन के अनुमानित संस्करण के बारे में बात कर रहे हैं, "हैट्स" के साथ)
सिल्वरफ़िश

मुझे लगता है कि मैं देख रहा हूं कि आप क्या कह रहे हैं। अगर मैं तुम्हें सही ढंग से समझ, मॉडल में त्रुटि अवधि गैर शून्य उम्मीद के साथ-साथ हो सकता था, क्योंकि यह एक सैद्धांतिक पैदा करने की प्रक्रिया है, न कि OLS प्रतिगमन है। yi=β1+β2xi+εi
उत्तर के

यह सांख्यिकीय अनुमान के दृष्टिकोण से एक शानदार उत्तर है। आपको क्या लगता है कि अगर भविष्यवाणी सटीकता प्राथमिक चिंता है तो इसका क्या असर होगा? पोस्ट का संपादन देखें।
उत्तर का

16

सरल उदाहरण:

  • Let xi,1 be the number of burgers I buy on visit i
  • Let xi,2 be the number of buns I buy.
  • Let b1 be the price of a burger
  • Let b2 be the price of a bun.
  • Independent of my burger and bun purchases, let me spend a random amount a+ϵi where a is a scalar and ϵi is a mean zero random variable. We have E[ϵi|X]=0.
  • Let yi be my spending on a trip to the grocery store.

The data generating process is:

yi=a+b1xi,1+b2xi,2+ϵi

If we ran that regression, we would get estimates a^, b^1, and b^2, and with enough data, they would converge on a, b1, and b2 respectively.

(Technical note: We need a little randomness so we don't buy exactly one bun for each burger we buy at every visit to the grocery store. If we did this, x1 and x2 would be collinear.)

An example of omitted variable bias:

Now let's consider the model:

yi=a+b1xi,1+ui

Observe that ui=b2xi,2+ϵi. Hence

Cov(x1,u)=Cov(x1,b2x2+ϵ)=b2Cov(x1,x2)+Cov(x1,ϵ)=b2Cov(x1,x2)

Is this zero? Almost certainly not! The purchase of burgers x1 and the purchase of buns x2 are almost certainly correlated! Hence u and x1 are correlated!

What happens if you tried to run the regression?

If you tried to run:

yi=a^+b^1xi,1+u^i

Your estimate b^1 would almost certainly be a poor estimate of b1 because the OLS regression estimates a^,b^,u^ would be constructed so that u^ and x1 are uncorrelated in your sample. But the actual u is correlated with x1 in the population!

What would happen in practice if you did this? Your estimate b^1 of the price of burgers would ALSO pickup the price of buns. Let's say every time you bought a $1 burger you tended to buy a $0.50 bun (but not all the time). Your estimate of the price of burgers might be $1.40. You'd be picking up the burger channel and the bun channel in your estimate of the burger price.


I like your burger bun example. You explained the problem from the perspective of statistical inference, ie inferring the effect of burger on price. Just wondering what the effect would be if all I care about is prediction, i.e prediction MSE on a test dataset? The intuition is that it is not going to be as good, but is there any theory to make it more precise? (this introduced more bias, but less variance, so the overall effect is not apparent to me. )
denizen of the north

1
@user1559897 If you just care about predicting spending, then predicting spending using the number of burgers and estimating b^1 as around $1.40 might work pretty well. If you have enough data, using the number of burgers and buns would undoubtedly work better. In short samples, L1 regularlization (LASSO) might send one of the coefficients b1 or b2 to zero. I think you're correctly recognizing that what you're doing in regression is estimating a conditional expectation function. My point is for that that function to capture causal effects, you need additional assumptions.
Matthew Gunn

3

Suppose that we're building a regression of the weight of an animal on its height. Clearly, the weight of a dolphin would be measured differently (in different procedure and using different instruments) from the weight of an elephant or a snake. This means that the model errors will be dependent on the height, i.e. explanatory variable. They could be dependent in many different ways. For instance, maybe we tend to slightly overestimate the elephant weights and slightly underestimate the snake's, etc.

So, here we established that it is easy to end up with a situation when the errors are correlated with the explanatory variables. Now, if we ignore this and proceed to regression as usual, we'll notice that the regression residuals are not correlated with the design matrix. This is because, by design the regression forces the residuals to be uncorrelated. Note, also that residuals are not the errors, they're the estimates of errors. So, regardless of whether the errors themselves are correlated or not with the independent variables the error estimates (residuals) will be uncorrelated by the construction of the regression equation solution.

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.