आकलन


14

मेरे पास एक सैद्धांतिक आर्थिक मॉडल है जो निम्नानुसार है,

y=a+b1x1+b2x2+b3x3+u

तो सिद्धांत कहता है कि y का अनुमान लगाने के लिए , x 2 और x 3 कारक हैं ।x1x2x3y

अब मेरे पास वास्तविक डेटा है और मुझे , बी 2 , बी 3 का अनुमान लगाना होगा । समस्या यह है कि वास्तविक डेटा सेट में केवल x 1 और x 2 के लिए डेटा है ; x 3 के लिए कोई डेटा नहीं हैं । तो मॉडल मैं वास्तव में फिट कर सकते हैं:b1b2b3x1x2x3

y=a+b1x1+b2x2+u
  • क्या इस मॉडल का अनुमान लगाना ठीक है?
  • क्या मैं इसका आकलन करते हुए कुछ खो देता हूं?
  • यदि मैं , बी 2 का अनुमान लगाता हूं , तो बी 3 एक्स 3 शब्द कहां जाता है?b1b2b3x3
  • क्या यह त्रुटि अवधि के लिए जिम्मेदार है ?u

और हम यह मान लेना चाहेंगे कि का x 1 और x 2 से कोई संबंध नहीं है ।x3x1x2


क्या आप अपने डेटा सेट, मेरा मतलब है, आपके आश्रित चर और स्वतंत्र चर x 1 और x 2 के बारे में विवरण दे सकते हैं ? yx1x2
वराह

विशिष्ट डेटा सेट के बिना इसे काल्पनिक उदाहरण के रूप में सोचें ...
रेनथी

जवाबों:


20

जिस मुद्दे पर आपको चिंता करने की ज़रूरत है, उसे एंडोजेनिटी कहा जाता है । अधिक विशेष रूप से, यह इस बात पर निर्भर करता है कि x 1 या x 2 के साथ जनसंख्या में का संबंध है या नहीं । यदि यह है, तो संबंधित बी जे एस पक्षपाती होगा। ऐसा इसलिए है क्योंकि है OLS प्रतिगमन तरीकों बच मजबूर, यू मैं , अपने covariates साथ असहसंबद्ध होने के लिए, एक्स जे एस। हालांकि, अपने बच कुछ अलघुकरणीय अनियमितता, से बने होते हैं ε मैं , और अप्रत्यक्ष (लेकिन प्रासंगिक) चर, x 3 , जो शर्त सेx3x1x2bjuixjεix3है के साथ सहसंबद्ध और / या एक्स 2 । दूसरी ओर, यदि दोनों एक्स 1 और एक्स 2 के साथ uncorrelated हैं एक्स 3 आबादी में, तो उनके इस से (वे अच्छी तरह से जाहिर है, कुछ और द्वारा पक्षपातपूर्ण हो सकता है) पक्षपाती नहीं किया जाएगा। एक तरह से अर्थशास्त्री इस मुद्दे से निपटने की कोशिश करते हैं, जो इंस्ट्रूमेंटल वैरिएबल का उपयोग करते हैंx1x2 x1x2x3b

अधिक से अधिक स्पष्टता रखने के लिए, मैं उस के नमूने वितरण दर्शाता आर में एक त्वरित अनुकरण लिखा है निष्पक्ष / के सही मूल्य पर केंद्रित है β 2 , जब इसके साथ असहसंबद्ध है एक्स 3 । इसके दूसरे भाग में, हालांकि, ध्यान दें कि x 3 के साथ असहसंबद्ध है एक्स 1 , लेकिन नहीं एक्स 2 । संयोग नहीं, 1 निष्पक्ष है, लेकिन 2 है पक्षपाती। b2β2x3x3x1x2b1b2

library(MASS)                          # you'll need this package below
N     = 100                            # this is how much data we'll use
beta0 = -71                            # these are the true values of the
beta1 = .84                            # parameters
beta2 = .64
beta3 = .34

############## uncorrelated version

b0VectU = vector(length=10000)         # these will store the parameter
b1VectU = vector(length=10000)         # estimates
b2VectU = vector(length=10000)
set.seed(7508)                         # this makes the simulation reproducible

for(i in 1:10000){                     # we'll do this 10k times
  x1 = rnorm(N)
  x2 = rnorm(N)                        # these variables are uncorrelated
  x3 = rnorm(N)
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
  mod = lm(y~x1+x2)                    # note all 3 variables are relevant
                                       # but the model omits x3
  b0VectU[i] = coef(mod)[1]            # here I'm storing the estimates
  b1VectU[i] = coef(mod)[2]
  b2VectU[i] = coef(mod)[3]
}
mean(b0VectU)  # [1] -71.00005         # all 3 of these are centered on the
mean(b1VectU)  # [1] 0.8399306         # the true values / are unbiased
mean(b2VectU)  # [1] 0.6398391         # e.g., .64 = .64

############## correlated version

r23 = .7                               # this will be the correlation in the
b0VectC = vector(length=10000)         # population between x2 & x3
b1VectC = vector(length=10000)
b2VectC = vector(length=10000)
set.seed(2734)

for(i in 1:10000){
  x1 = rnorm(N)
  X  = mvrnorm(N, mu=c(0,0), Sigma=rbind(c(  1, r23),
                                         c(r23,   1)))
  x2 = X[,1]
  x3 = X[,2]                           # x3 is correated w/ x2, but not x1
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
                                       # once again, all 3 variables are relevant
  mod = lm(y~x1+x2)                    # but the model omits x3
  b0VectC[i] = coef(mod)[1]
  b1VectC[i] = coef(mod)[2]            # we store the estimates again
  b2VectC[i] = coef(mod)[3]
}
mean(b0VectC)  # [1] -70.99916         # the 1st 2 are unbiased
mean(b1VectC)  # [1] 0.8409656         # but the sampling dist of x2 is biased
mean(b2VectC)  # [1] 0.8784184         # .88 not equal to .64

तो, क्या आप थोड़ा और बढ़ा सकते हैं - अगर हम मान लें कि x3 $ x_1 और x2 के साथ नहीं मिला है? तब क्या होगा यदि मैं y = a + b1x1 + b2x2 + u का अनुमान लगाऊं?
15

1
को किसी भी तरह से अवशेषों में शामिल किया जाएगा, लेकिनअगरयह आबादी में असंबद्ध है, तो आपके अन्य बी एक्स 3 की अनुपस्थिति से पक्षपाती नहीं होंगे, लेकिन अगर यह असंबद्ध नहीं है, तो वे होंगे। b3x3bx3
गुंग - को पुनः स्थापित मोनिका

इसे और अधिक स्पष्ट रूप से बताने के लिए: यदि का x 1 या x 2 के साथ कोई संबंध नहीं है , तो आप ठीक हैं। x3x1x2
गुंग - को पुनः स्थापित मोनिका


3

r2=ax2+by2+cz2+ϵx2y2z2r2

x2y2r2ax2+by2+ϵ

आप "बॉल" प्रोजेक्ट कर रहे हैं, जो भी आकार है, सर्कल के लिए अभिव्यक्ति में है। यह एक तिरछे उन्मुख "बॉल" हो सकता है जो एक सिलाई सुई की तरह अधिक आकार का है, और इसलिएzघटक पूरी तरह से दो अक्षों के अनुमानों को मिटा देते हैं। यह एक गेंद हो सकती है जो लगभग कुचल एम एंड एम की तरह दिखती है जहां सिक्का-कुल्हाड़ी "x" और "y" हैं, और शून्य प्रक्षेपण है। आप नहीं जान सकते कि यह किसके बिना है "z" जानकारी।

वह आखिरी पैराग्राफ "शुद्ध जानकारी" मामले के बारे में बात कर रहा था और शोर के लिए खाता नहीं था। वास्तविक विश्व माप में शोर के साथ संकेत होता है। कुल्हाड़ियों से जुड़ी परिधि के साथ शोर आपके फिट पर बहुत अधिक प्रभाव डालने वाला है। हालांकि आपके पास समान संख्या में नमूने हैं, फिर भी आप अपने पैरामीटर अनुमानों में अधिक अनिश्चितता रखने जा रहे हैं। यदि यह इस सरल रैखिक अक्ष-उन्मुख मामले की तुलना में एक अलग समीकरण है, तो चीजें " नाशपाती के आकार " में जा सकती हैं । आपके वर्तमान समीकरण विमान के आकार के हैं, इसलिए एक बाउंड (गेंद की सतह) होने के बजाय, ज़ेड-डेटा सिर्फ मानचित्र पर ही जा सकता है - प्रक्षेपण एक गंभीर समस्या हो सकती है।

क्या मॉडल बनाना ठीक है? यह एक निर्णय कॉल है। एक विशेषज्ञ जो समस्या के विवरण को समझता है, वह इसका जवाब दे सकता है। मुझे नहीं पता कि अगर कोई समस्या से दूर है तो कोई अच्छा जवाब दे सकता है।

आप पैरामीटर अनुमानों में निश्चितता और मॉडल की प्रकृति सहित कई अच्छी चीजों को खो देते हैं।

के लिए अनुमान 3एप्सिलॉन और अन्य पैरामीटर अनुमानों में गायब हो जाता है। यह अंतर्निहित प्रणाली के आधार पर, पूरे समीकरण द्वारा निर्धारित किया जाता है।


1
मैं वास्तव में आपके तर्क का पालन नहीं कर सकता, और मुझे यकीन नहीं है कि यह सही है। जैसे, एक गोले का सतह क्षेत्र4πआर2। इसके अलावा, मुझे यकीन नहीं है कि यह सवाल से कैसे संबंधित है। मुख्य मुद्दा यह है कि छोड़ा गया चर सहसंबंधित w / चर है जो मॉडल में है या नहीं। मुझे यकीन नहीं है कि आप कैसे कह रहे हैं जो उस मुद्दे को संबोधित करते हैं। (स्पष्टता के लिए, मैं इसे एक सरल आर सिमुलेशन के साथ प्रदर्शित करता हूं।)
गंग - मोनिका

गुंग। मैंने एक सर्वश्रेष्ठ-केस उत्तर दिया -> सर्कल और दिखाया कि इसने अप्रत्याशित तरीके से मॉडल को बदल दिया। मुझे आपके उत्तर का तकनीकी परिष्कार पसंद आया, लेकिन मुझे यकीन नहीं है कि पूछने वाला हमारे उत्तर का उपयोग करने में सक्षम है। f(x,y,z) is the equation for the surface of an ellipsoid in 3 dimensions, a sphere is one case of it. I am assuming that the "true model" is the surface of the sphere, but noise corrupted measurements are on the surface. Throwing out one dimension gives data that, at best, makes a filled circle instead of the surface of a sphere.
EngrStudent - Reinstate Monica

I am unable to follow your argument because I don't see anything that corresponds to a "filled in square."
whuber

0

The other answers, while not wrong, over complicate the issue a bit.

If x3 is truly uncorrelated with x1 and x2 (and the true relationship is as specified) then you can estimate your second equation without an issue. As you suggest, β3x3 will be absorbed by the (new) error term. The OLS estimates will be unbiased, as long as all the other OLS assumptions hold.

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.