आकलन

14

मेरे पास एक सैद्धांतिक आर्थिक मॉडल है जो निम्नानुसार है,

y = a + b_{1} x_{1} + b_{2} x_{2} + b_{3} x_{3} + u

$y = a + b_1x_1 + b_2x_2 + b_3x_3 + u$

तो सिद्धांत कहता है कि का अनुमान लगाने के लिए , और कारक हैं । $x_1$ $x_2$ $x_3$ $y$

अब मेरे पास वास्तविक डेटा है और मुझे , , का अनुमान लगाना होगा । समस्या यह है कि वास्तविक डेटा सेट में केवल और लिए डेटा है ; लिए कोई डेटा नहीं हैं । तो मॉडल मैं वास्तव में फिट कर सकते हैं: $b_1$ $b_2$ $b_3$ $x_1$ $x_2$ $x_3$

y = a + b_{1} x_{1} + b_{2} x_{2} + u

$y = a + b_1x_1 + b_2x_2 + u$

क्या इस मॉडल का अनुमान लगाना ठीक है?
क्या मैं इसका आकलन करते हुए कुछ खो देता हूं?
यदि मैं , अनुमान लगाता हूं , तो शब्द कहां जाता है? $b_1$ $b_2$ $b_3x_3$
क्या यह त्रुटि अवधि के लिए जिम्मेदार है ? $u$

और हम यह मान लेना चाहेंगे कि का और से कोई संबंध नहीं है । $x_3$ $x_1$ $x_2$

regression multiple-regression endogeneity

— renathy
स्रोत

क्या आप अपने डेटा सेट, मेरा मतलब है, आपके आश्रित चर

और स्वतंत्र चर

और

बारे में विवरण दे सकते हैं ?

y

$y$

x_{1}

$x_1$

x_{2}

$x_2$

— वराह

विशिष्ट डेटा सेट के बिना इसे काल्पनिक उदाहरण के रूप में सोचें ...

— रेनथी

20

जिस मुद्दे पर आपको चिंता करने की ज़रूरत है, उसे एंडोजेनिटी कहा जाता है । अधिक विशेष रूप से, यह इस बात पर निर्भर करता है कि या साथ जनसंख्या में का संबंध है या नहीं । यदि यह है, तो संबंधित एस पक्षपाती होगा। ऐसा इसलिए है क्योंकि है OLS प्रतिगमन तरीकों बच मजबूर, , अपने covariates साथ असहसंबद्ध होने के लिए, एस। हालांकि, अपने बच कुछ अलघुकरणीय अनियमितता, से बने होते हैं , और अप्रत्यक्ष (लेकिन प्रासंगिक) चर, , जो शर्त से $x_3$ $x_1$ $x_2$ $b_j$ $u_i$ $x_j$ $\varepsilon_i$ $x_3$ है के साथ सहसंबद्ध और / या । दूसरी ओर, यदि दोनों और के साथ uncorrelated हैं आबादी में, तो उनके इस से (वे अच्छी तरह से जाहिर है, कुछ और द्वारा पक्षपातपूर्ण हो सकता है) पक्षपाती नहीं किया जाएगा। एक तरह से अर्थशास्त्री इस मुद्दे से निपटने की कोशिश करते हैं, जो इंस्ट्रूमेंटल वैरिएबल का उपयोग करते हैं । $x_1$ $x_2$ $x_1$ $x_2$ $x_3$ $b$

अधिक से अधिक स्पष्टता रखने के लिए, मैं उस के नमूने वितरण दर्शाता आर में एक त्वरित अनुकरण लिखा है निष्पक्ष / के सही मूल्य पर केंद्रित है , जब इसके साथ असहसंबद्ध है । इसके दूसरे भाग में, हालांकि, ध्यान दें कि के साथ असहसंबद्ध है , लेकिन नहीं । संयोग नहीं, निष्पक्ष है, लेकिन है पक्षपाती। $b_2$ $\beta_2$ $x_3$ $x_3$ $x_1$ $x_2$ $b_1$ $b_2$

library(MASS)                          # you'll need this package below
N     = 100                            # this is how much data we'll use
beta0 = -71                            # these are the true values of the
beta1 = .84                            # parameters
beta2 = .64
beta3 = .34

############## uncorrelated version

b0VectU = vector(length=10000)         # these will store the parameter
b1VectU = vector(length=10000)         # estimates
b2VectU = vector(length=10000)
set.seed(7508)                         # this makes the simulation reproducible

for(i in 1:10000){                     # we'll do this 10k times
  x1 = rnorm(N)
  x2 = rnorm(N)                        # these variables are uncorrelated
  x3 = rnorm(N)
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
  mod = lm(y~x1+x2)                    # note all 3 variables are relevant
                                       # but the model omits x3
  b0VectU[i] = coef(mod)[1]            # here I'm storing the estimates
  b1VectU[i] = coef(mod)[2]
  b2VectU[i] = coef(mod)[3]
}
mean(b0VectU)  # [1] -71.00005         # all 3 of these are centered on the
mean(b1VectU)  # [1] 0.8399306         # the true values / are unbiased
mean(b2VectU)  # [1] 0.6398391         # e.g., .64 = .64

############## correlated version

r23 = .7                               # this will be the correlation in the
b0VectC = vector(length=10000)         # population between x2 & x3
b1VectC = vector(length=10000)
b2VectC = vector(length=10000)
set.seed(2734)

for(i in 1:10000){
  x1 = rnorm(N)
  X  = mvrnorm(N, mu=c(0,0), Sigma=rbind(c(  1, r23),
                                         c(r23,   1)))
  x2 = X[,1]
  x3 = X[,2]                           # x3 is correated w/ x2, but not x1
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
                                       # once again, all 3 variables are relevant
  mod = lm(y~x1+x2)                    # but the model omits x3
  b0VectC[i] = coef(mod)[1]
  b1VectC[i] = coef(mod)[2]            # we store the estimates again
  b2VectC[i] = coef(mod)[3]
}
mean(b0VectC)  # [1] -70.99916         # the 1st 2 are unbiased
mean(b1VectC)  # [1] 0.8409656         # but the sampling dist of x2 is biased
mean(b2VectC)  # [1] 0.8784184         # .88 not equal to .64

— गुंग - को पुनः स्थापित मोनिका
स्रोत

तो, क्या आप थोड़ा और बढ़ा सकते हैं - अगर हम मान लें कि x3 $ x_1 और x2 के साथ नहीं मिला है? तब क्या होगा यदि मैं y = a + b1x1 + b2x2 + u का अनुमान लगाऊं?

— 15

1

को किसी भी तरह से अवशेषों में शामिल किया जाएगा, लेकिनअगरयह आबादी में असंबद्ध है, तो आपके अन्य

की अनुपस्थिति से पक्षपाती नहीं होंगे, लेकिन अगर यह असंबद्ध नहीं है, तो वे होंगे।

b_{3} x_{3}

$b_3x_3$

b

$b$

x_{3}

$x_3$

— गुंग - को पुनः स्थापित मोनिका

इसे और अधिक स्पष्ट रूप से बताने के लिए: यदि

का

या

साथ कोई संबंध नहीं है , तो आप ठीक हैं।

x_{3}

$x_3$

x_{1}

$x_1$

x_{2}

$x_2$

— गुंग - को पुनः स्थापित मोनिका

मैं अपने उत्तर में इस मुद्दे के फ्लिप पक्ष पर चर्चा करता हूं: क्या मौजूदा चर के गुणांकों के परिवर्तनशील गुणन परिवर्तन में अधिक चर जोड़ना है?

— गुंग - को पुनः स्थापित मोनिका

3

$r^2 = ax^2+by^2+cz^2 + \epsilon$ $x^2$ $y^2$ $z^2$ $r^2$

$x^2$ $y^2$ $r^2 \le ax^2 + by^2 + \epsilon$

आप "बॉल" प्रोजेक्ट कर रहे हैं, जो भी आकार है, सर्कल के लिए अभिव्यक्ति में है। यह एक तिरछे उन्मुख "बॉल" हो सकता है जो एक सिलाई सुई की तरह अधिक आकार का है, और इसलिए $z$ घटक पूरी तरह से दो अक्षों के अनुमानों को मिटा देते हैं। यह एक गेंद हो सकती है जो लगभग कुचल एम एंड एम की तरह दिखती है जहां सिक्का-कुल्हाड़ी "x" और "y" हैं, और शून्य प्रक्षेपण है। आप नहीं जान सकते कि यह किसके बिना है " $z$ " जानकारी।

वह आखिरी पैराग्राफ "शुद्ध जानकारी" मामले के बारे में बात कर रहा था और शोर के लिए खाता नहीं था। वास्तविक विश्व माप में शोर के साथ संकेत होता है। कुल्हाड़ियों से जुड़ी परिधि के साथ शोर आपके फिट पर बहुत अधिक प्रभाव डालने वाला है। हालांकि आपके पास समान संख्या में नमूने हैं, फिर भी आप अपने पैरामीटर अनुमानों में अधिक अनिश्चितता रखने जा रहे हैं। यदि यह इस सरल रैखिक अक्ष-उन्मुख मामले की तुलना में एक अलग समीकरण है, तो चीजें " नाशपाती के आकार " में जा सकती हैं । आपके वर्तमान समीकरण विमान के आकार के हैं, इसलिए एक बाउंड (गेंद की सतह) होने के बजाय, ज़ेड-डेटा सिर्फ मानचित्र पर ही जा सकता है - प्रक्षेपण एक गंभीर समस्या हो सकती है।

क्या मॉडल बनाना ठीक है? यह एक निर्णय कॉल है। एक विशेषज्ञ जो समस्या के विवरण को समझता है, वह इसका जवाब दे सकता है। मुझे नहीं पता कि अगर कोई समस्या से दूर है तो कोई अच्छा जवाब दे सकता है।

आप पैरामीटर अनुमानों में निश्चितता और मॉडल की प्रकृति सहित कई अच्छी चीजों को खो देते हैं।

के लिए अनुमान $b_3$ एप्सिलॉन और अन्य पैरामीटर अनुमानों में गायब हो जाता है। यह अंतर्निहित प्रणाली के आधार पर, पूरे समीकरण द्वारा निर्धारित किया जाता है।

— EngrStudent - मोनिका को बहाल करना
स्रोत

1

मैं वास्तव में आपके तर्क का पालन नहीं कर सकता, और मुझे यकीन नहीं है कि यह सही है। जैसे, एक गोले का सतह क्षेत्र

4 π r^{2}

$4\pi r^2$ । इसके अलावा, मुझे यकीन नहीं है कि यह सवाल से कैसे संबंधित है। मुख्य मुद्दा यह है कि छोड़ा गया चर सहसंबंधित w / चर है जो मॉडल में है या नहीं। मुझे यकीन नहीं है कि आप कैसे कह रहे हैं जो उस मुद्दे को संबोधित करते हैं। (स्पष्टता के लिए, मैं इसे एक सरल आर सिमुलेशन के साथ प्रदर्शित करता हूं।)

— गंग - मोनिका

गुंग। मैंने एक सर्वश्रेष्ठ-केस उत्तर दिया -> सर्कल और दिखाया कि इसने अप्रत्याशित तरीके से मॉडल को बदल दिया। मुझे आपके उत्तर का तकनीकी परिष्कार पसंद आया, लेकिन मुझे यकीन नहीं है कि पूछने वाला हमारे उत्तर का उपयोग करने में सक्षम है।

f (x, y, z)

$f(x,y,z)$ is the equation for the surface of an ellipsoid in 3 dimensions, a sphere is one case of it. I am assuming that the "true model" is the surface of the sphere, but noise corrupted measurements are on the surface. Throwing out one dimension gives data that, at best, makes a filled circle instead of the surface of a sphere.

— EngrStudent - Reinstate Monica

I am unable to follow your argument because I don't see anything that corresponds to a "filled in square."

— whuber

0

The other answers, while not wrong, over complicate the issue a bit.

If $x_3$ is truly uncorrelated with $x_1$ and $x_2$ (and the true relationship is as specified) then you can estimate your second equation without an issue. As you suggest, $\beta_3 x_3$ will be absorbed by the (new) error term. The OLS estimates will be unbiased, as long as all the other OLS assumptions hold.

— Daniel Ludwinski
स्रोत