हां, सभी चर के व्याख्यात्मक मैट्रिक्स - व्याख्यात्मक और प्रतिक्रिया - में सभी गुणांक खोजने के लिए आवश्यक जानकारी शामिल है, बशर्ते एक इंटरसेप्ट (निरंतर) शब्द मॉडल में शामिल है। (हालांकि सहसंयोजक निरंतर शब्द के बारे में कोई जानकारी नहीं देते हैं, यह डेटा के साधनों से पाया जा सकता है।)
विश्लेषण
व्याख्यात्मक चर के डेटा को -dimensional कॉलम vectors x 1 , x 2 , … , x p और प्रतिक्रिया चर के रूप में व्यवस्थित किया जाना चाहिए स्तंभ वेक्टर y , एक यादृच्छिक चर Y की प्राप्ति माना जाता है । साधारण कम से कम वर्गों अनुमान बीटा मॉडल में गुणांकों केnx1,x2,…,xpyYβ^
E(Y)=α+Xβ
कोडांतरण द्वारा प्राप्त कर रहे हैं स्तंभ वैक्टर एक्स 0 = ( 1 , 1 , ... , 1 ) ' , एक्स 1 , ... , एक्स पी एक में n × पी + 1 सरणी एक्स और रेखीय समीकरण प्रणाली को सुलझानेp+1X0=(1,1,…,1)′,X1,…,Xpn×p+1X
X′Xβ^=X′y.
यह सिस्टम के बराबर है
1nX′Xβ^=1nX′y.
गाऊसी उन्मूलन इस प्रणाली को हल करेगा। यह मैट्रिक्स 1 से सटे हुए से आगे बढ़ता हैp+1×p+1औरp+1-vector11nX′Xp+1एक मेंपी+1×पी+2सरणीएकऔर यह पंक्ति को कम करने। 1nX′yp+1×p+2A
पहला चरण 1 का निरीक्षण करेगा। इसे नॉनजरो होने के कारण, यहअपने पहले कॉलम में शेष प्रविष्टियों को शून्य करने के लिए शेष पंक्तियों में सेAकी पहली पंक्ति के उपयुक्त गुणकों को घटाता है। ये गुणक1 होंगे1n(X′X)11=1nX′0X0=1Aऔर नंबर की प्रविष्टि से घटायाएकमैं+1,जे+1=एक्स ' मैं एक्सजेबराबर होगा ¯ एक्स मैं ¯ एक्स जे। यहएक्सआईऔरएक्सजेके सहसंयोजक के लिए सिर्फ सूत्र है। इसके अलावा,i+1,p+2स्थितिमें बचे नंबर1 केबराबर है1nX′0Xi=X¯¯¯¯iAi+1,j+1=X′iXjX¯¯¯¯iX¯¯¯¯jXiXji+1,p+2 , की सहप्रसरणएक्समैंसाथy।1nX′iy−Xi¯¯¯¯¯¯y¯¯¯Xiy
इस प्रकार, गाऊसी उन्मूलन के पहले चरण के बाद प्रणाली को हल करने के लिए कम कर दिया जाता है
Cβ^=(Cov(Xi,y))′
और स्पष्ट रूप से - चूंकि सभी गुणांक सहसंयोजक हैं - यह समाधान सभी चर के सहसंयोजक मैट्रिक्स से पाया जा सकता है।
(जब उलटी है समाधान लिखा जा सकता है सी - 1 ( Cov ( एक्स मैं , y ) ) ' । प्रश्न में दिए गए फार्मूले इस के विशेष मामले हैं जब पी = 1 और पी = 2 ऐसे फार्मूले बाहर लेखन स्पष्ट रूप से होगा। p बढ़ता ही अधिक से अधिक जटिल हो जाता है। इसके अलावा, वे संख्यात्मक अभिकलन के लिए नीच हैं, जो मैट्रिक्स C को निष्क्रिय करने के बजाय समीकरणों की प्रणाली को हल करके सबसे अच्छा किया जाता है ।)CC−1(Cov(Xi,y))′p=1p=2pC
निरंतर अवधि के औसत के बीच का अंतर हो जाएगा और मतलब मूल्यों का अनुमान है, से की भविष्यवाणी की एक्स β ।yXβ^
उदाहरण
वर्णन करने के लिए, निम्न R
कोड कुछ डेटा बनाता है, उनके सहसंयोजकों की गणना करता है, और उस जानकारी से पूरी तरह से कम से कम चौकोर गुणांक अनुमान प्राप्त करता है। यह उनकी तुलना सबसे कम वर्ग के अनुमानक से प्राप्त अनुमानों से करता है lm
।
#
# 1. Generate some data.
#
n <- 10 # Data set size
p <- 2 # Number of regressors
set.seed(17)
z <- matrix(rnorm(n*(p+1)), nrow=n, dimnames=list(NULL, paste0("x", 1:(p+1))))
y <- z[, p+1]
x <- z[, -(p+1), drop=FALSE];
#
# 2. Find the OLS coefficients from the covariances only.
#
a <- cov(x)
b <- cov(x,y)
beta.hat <- solve(a, b)[, 1] # Coefficients from the covariance matrix
#
# 2a. Find the intercept from the means and coefficients.
#
y.bar <- mean(y)
x.bar <- colMeans(x)
intercept <- y.bar - x.bar %*% beta.hat
आउटपुट दो तरीकों के बीच समझौता दिखाता है:
(rbind(`From covariances` = c(`(Intercept)`=intercept, beta.hat),
`From data via OLS` = coef(lm(y ~ x))))
(Intercept) x1 x2
From covariances 0.946155 -0.424551 -1.006675
From data via OLS 0.946155 -0.424551 -1.006675