रैखिक प्रतिगमन में त्रुटियों का भिन्न-भिन्न सहसंयोजक मैट्रिक्स


12

व्यवहार में सांख्यिकीय विश्लेषण पैकेजों द्वारा गणना की गई var / cov त्रुटि मैट्रिक्स कैसे है?

यह विचार मेरे लिए सिद्धांत रूप में स्पष्ट है। लेकिन व्यवहार में नहीं। मेरा मतलब है, अगर मेरे पास रैंडम वैरिएबल , तो मैं समझता हूं कि मैट्रिक्स विचलन-से-मतलब वैक्टर के बाहरी उत्पाद दिया जाएगा: ।X=(X1,X2,,Xn)ΣΣ=E[(XE(X))(XE(X))]

लेकिन जब मेरे पास एक नमूना होता है, तो मेरी टिप्पणियों की त्रुटियां यादृच्छिक चर नहीं होती हैं। या बेहतर, वे हैं, लेकिन केवल अगर मैं एक ही जनसंख्या से समान समरूप नमूने लेता हूं। अन्यथा, वे दिए गए हैं। तो, फिर से मेरा सवाल है: एक सांख्यिकीय पैकेज शोधकर्ता द्वारा आपूर्ति की गई टिप्पणियों (यानी एक नमूना) की सूची से शुरू होने वाले var / cov मैट्रिक्स का उत्पादन कैसे कर सकता है?


आपकी टिप्पणियों की त्रुटियां एक यादृच्छिक चर (y) का कार्य हैं और इसलिए स्वयं यादृच्छिक हैं। अकेले एक्स पर सशर्त, उन्हें नहीं दिया जाता है।
user603

1
हां, मैं उस पर पूरी तरह सहमत हूं। लेकिन आप जो कहते हैं वह सिद्धांत में काम करता है। अगर मैं कहता हूं, एक ही जनसंख्या से समान आकार के 100 यादृच्छिक नमूने, प्रत्येक अवलोकन त्रुटि (0, सिग्मा ^ 2) के साथ एक यादृच्छिक चर होगा। क्या होगा अगर, इसके बजाय, मैं केवल एक नमूना तैयार करता हूं? उस स्थिति में, प्रत्येक अवलोकन की त्रुटि का मतलब स्वयं त्रुटि है। क्या यह स्पष्ट है कि मैं क्या कह रहा हूं? इसलिए, जो मैं समझने की कोशिश कर रहा हूं, वह यह है कि कैसे स्टाटा जैसे पैकेज आबादी से खींचे गए केवल एक नमूने का उपयोग करके विचरण-सहसंयोजक मैट्रिक्स की गणना करते हैं?
रिकार्डो

जवाबों:


7

टाइप मॉडल के लिए सहसंयोजक मैट्रिक्स को आमतौर पर जहां रूप में गणना की जाती है वर्गों का अवशिष्ट योग, और स्वतंत्रता की डिग्री है (आमतौर पर टिप्पणियों की संख्या शून्य से मापदंडों की संख्या)।y=Xβ+ϵ

(XtX)1σ2d
σ2σ2=i(yiXiβ^)2d

मजबूत और या क्लस्टर्ड मानक त्रुटियों के लिए, उत्पाद को थोड़ा संशोधित किया जाता है। बाहरी उत्पादों की अपेक्षा के अनुसार सुझाए गए सहसंयोजक मैट्रिक्स की गणना करने के अन्य तरीके भी हो सकते हैं।XtX


3
  1. त्रुटि भिन्नता का OLS अनुमान , :σ2

s2=ε^ε^np

यह पृष्ठ २१ में जूलियन जे। फ़ारवे द्वारा आर का उपयोग करते हुए प्रैक्टिकल रिग्रेशन और एनोवा में शामिल है ।

आर में इसकी गणना का उदाहरण, mtcarsडेटाबेस में शामिल कई कार मॉडल चश्मे पर दर्ज मील-प्रति-गैलन के रैखिक मॉडल के आधार पर ols = lm(mpg ~ disp + drat + wt, mtcars):। ये मैनुअल गणना और lm()फ़ंक्शन का आउटपुट हैं :

> rdf = nrow(X) - ncol(X)                    # Residual degrees of freedom
> s.sq = as.vector((t(ols$residuals) %*% ols$residuals) / rdf) 
>                                            # s square (OLS estimate of sigma square)
> (sigma = sqrt(s.sq))                       # Residual standar error
[1] 2.950507
> summary(ols)

Call:
lm(formula = mpg ~ disp + drat + wt, data = mtcars)
...
Residual standard error: 2.951 on 28 degrees of freedom
  1. भिन्न - अनुमानित गुणांक के सहसंयोजक मैट्रिक्स , :β^

Var[β^X]=σ2(XX)1

इस ऑनलाइन दस्तावेज़ के पेज 8 में के रूप में अनुमानित रूप में

Var^[β^X]=s2(XX)1
> X = model.matrix(ols)                             # Model matrix X
> XtX = t(X) %*% X                                  # X transpose X
> Sigma = solve(XtX) * s.sq                         # Variance - covariance matrix
> all.equal(Sigma, vcov(ols))                       # Same as built-in formula
[1] TRUE
> sqrt(diag(Sigma))                                 # Calculated Std. Errors of coef's
(Intercept)        disp        drat          wt 
7.099791769 0.009578313 1.455050731 1.217156605 
> summary(ols)[[4]][,2]                             # Output of lm() function
(Intercept)        disp        drat          wt 
7.099791769 0.009578313 1.455050731 1.217156605 

2

रैखिक प्रतिगमन के साथ हम एक मॉडल फिटिंग कर रहे हैं । आश्रित चर है, के भविष्यवक्ता (व्याख्यात्मक) चर हैं। जनसंख्या ( ) के अनुमान के लिए हम अपने द्वारा दिए गए डेटा (प्रशिक्षण सेट या नमूने) का उपयोग करते हैं । के यादृच्छिक परिवर्तनीय नहीं माना जाता। के त्रुटि घटक की वजह से यादृच्छिक कर रहे हैं।वाई एक्स β एक्स वाईY=βX+εYXβXY


हाय राजीव, सुधार के लिए धन्यवाद। तो, क्या आप बता सकते हैं कि कैसे Stata (या कोई अन्य आँकड़े पैकेज), Y (और epsilon) से शुरू होकर, विचरण-सहसंयोजक मैट्रिक्स सिग्मा को प्राप्त करने का प्रबंधन करता है?
रिकालार्डो

कंप्यूटिंग करके " । e^e^
user603

User603 से सहमत हैं। कृपया cran.r-project.org/doc/contrib/Faraway-PRA.pdf के पेज 21 की जांच करें । यह R पर आधारित है लेकिन इसमें रैखिक प्रतिगमन के पीछे सिद्धांत की अच्छी चर्चा शामिल है।
राजीव संबासीवन

हाय, धन्यवाद, सबसे पहले। मैं आपसे भी सहमत हूं, user603, और मुझे इस उत्तर की उम्मीद थी। लेकिन अगर वैर / कोव मैट्रिक्स की गणना त्रुटि वैक्टर के बाहरी उत्पाद की गणना करके की जाती है, तो इसका मतलब है कि ज्यादातर मामलों में त्रुटि घटकों के बीच कोव शून्य नहीं होगा क्योंकि स्वतंत्रता की परिकल्पना का अर्थ होगा। सही? यही मेरी शंका घूमती है। राजीव, मैंने आपके द्वारा सुझाए गए अच्छे मार्गदर्शक पर ध्यान दिया लेकिन उत्तर नहीं मिला। भविष्य के किसी भी उत्तर के लिए अग्रिम धन्यवाद।
रिकार्डो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.