की सहज व्याख्या


18

यदि पूर्ण रैंक है, तो का विलोम मौजूद है और हमें सबसे कम वर्ग का अनुमान मिलता है: औरएक्स टी एक्स β = ( एक्स टी एक्स ) - 1 एक्स वाई वार ( β ) = σ 2 ( एक्स टी एक्स ) - 1XXTX

β^=(XTX)1XY
Var(β^)=σ2(XTX)1

विचरण सूत्र में हम सहजता से कैसे समझा सकते हैं ? मेरे लिए व्युत्पत्ति की तकनीक स्पष्ट है।(XTX)1


3
आप यह इंगित करने के लिए एक नोट जोड़ना चाह सकते हैं कि आपके द्वारा के विचरण-सहसंयोजक मैट्रिक्स के लिए जो सूत्र आपके द्वारा कहा गया है - वह मानकर OLS द्वारा अनुमानित है - केवल तभी सही होगा गॉस-मार्कोव की शर्तों प्रमेय संतुष्ट हैं और विशेष रूप से, सिर्फ तभी जब त्रुटि शर्तों के विचरण-सहप्रसरण मैट्रिक्स द्वारा दिया जाता है , जहां है पहचान मैट्रिक्स और की संख्या है (और ) की पंक्तियाँ । आपके द्वारा प्रदान किया गया सूत्र गैर-गोलाकार त्रुटियों के अधिक सामान्य मामले के लिए सही नहीं है। बीटा σ2मैंnमैंnn×nnएक्सवाईβ^β^σ2InInn×nnXY
माइक्रो

जवाबों:


13

एक स्थिर अवधि के बिना एक साधारण प्रतिगमन पर विचार करें, और जहां एकल प्रतिगामी इसके नमूना माध्य पर केंद्रित है। तब है ( एन बार) अपने नमूना प्रसरण, और (X'X) ^ {- 1} अपने recirpocal। तो प्रतिगामी में भिन्नता = परिवर्तनशीलता अधिक होती है, गुणांक अनुमानक का विचरण कम होता है: व्याख्यात्मक चर में हमारे पास जितनी अधिक परिवर्तनशीलता होती है, उतनी ही सटीकता से हम अज्ञात गुणांक का अनुमान लगा सकते हैं। एन ( एक्स ' एक्स ) - 1XXn(XX)1

क्यों? क्योंकि एक रजिस्ट्रार जितना अधिक भिन्न होता है, उतनी ही अधिक जानकारी होती है। जब रजिस्टर्स कई होते हैं, तो यह उनके विचरण-सहसंयोजक मैट्रिक्स के व्युत्क्रम को सामान्य करता है, जो रजिस्टरों की सह-परिवर्तनशीलता को भी ध्यान में रखता है। चरम मामले में जहां विकर्ण है, फिर प्रत्येक अनुमानित गुणांक के लिए सटीक संबंधित के विचरण / परिवर्तनशीलता पर निर्भर करता है (त्रुटि अवधि के विचरण को देखते हुए)।XX



5

देखने का एक आसान तरीका σ2(XTX)1 मैट्रिक्स के रूप में है (मल्टीवेरिएट) के अनुरूप σ2i=1n(XiX¯)2 , जो साधारण OLS प्रतिगमन में ढलान गुणांक के विचरण है। एक भीσ2प्राप्त कर सकते हैंσ2i=1nXi2 उस प्रतिरूप के लिए मॉडल में अवरोधन को छोड़कर, अर्थात उत्पत्ति के माध्यम से प्रतिगमन प्रदर्शन करके।

इनमें से किसी एक सूत्र से यह देखा जा सकता है कि भविष्यवक्ता चर की बड़ी परिवर्तनशीलता सामान्य रूप से इसके गुणांक के अधिक सटीक अनुमान का नेतृत्व करेगा। यह प्रयोगों के डिजाइन में अक्सर इस्तेमाल किया जाने वाला विचार है, जहां (गैर-यादृच्छिक) भविष्यवक्ताओं के लिए मूल्यों को चुनकर, व्यक्ति (XTX) के निर्धारक को यथासंभव बड़ा बनाने की कोशिश करता है, निर्धारक परिवर्तनशीलता का मापक होता है।


2

क्या गाऊसी यादृच्छिक परिवर्तनशील के रैखिक परिवर्तन से मदद मिलती है? नियम का उपयोग करना है कि अगर, , तो एक एक्स + ~ एन ( एक μ + , एक टी Σ एक )xN(μ,Σ)Ax+b N(Aμ+b,ATΣA)

मान लिया जाये कि, कि अंतर्निहित मॉडल और है ε ~ एन ( 0 , σ 2 )Y=Xβ+ϵϵN(0,σ2)

YN(Xβ,σ2)XTYN(XTXβ,Xσ2XT)(XTX)1XTYN[β,(XTX)1σ2]

तो केवल एक जटिल स्केलिंग मैट्रिक्स है जो वाई के वितरण को बदल देता है ।(XTX)1XTY

आशा है कि सहायक था।


ओएलएस अनुमानक और इसके विचलन की व्युत्पत्ति में कुछ भी त्रुटि की सामान्यता की आवश्यकता नहीं है। सभी कि आवश्यक है और ( ε ε टी ) = σ 2 मैं एन । (बेशक, यह दिखाने के लिए सामान्यता की आवश्यकता है कि ओएलएस क्रैमर-राव लोअर बाउंड को प्राप्त करता है, लेकिन यह ओपी की पोस्टिंग के बारे में नहीं है, क्या यह है?)E(ε)=0E(εεT)=σ2In
मियो

2

मैं फार्मूला वार को रेखांकित करने वाले अंतर्ज्ञान को विकसित करने की दिशा में एक अलग दृष्टिकोण लूंगा। कई प्रतिगमन मॉडल के लिए अंतर्ज्ञान विकसित करते समय, यह द्विभाजित रैखिक प्रतिगमन मॉडल,अर्थातपर विचार करने के लिए सहायक है,Yमैं=α+βएक्समैं+εमैं,Varβ^=σ2(XX)1α + β एक्स मैं अक्सर करने के लिए नियतात्मक योगदान कहा जाता है y मैं , और ε मैं स्टोकेस्टिक योगदान कहा जाता है। नमूना साधन से विचलन के संदर्भ में व्यक्त ( ˉ एक्स , ˉ y ) , इस मॉडल के रूप में भी लिखा जा सकता है ( y मैं - ˉ y ) = β ( एक्स मैं - ˉ एक्स ) + ( ε

yi=α+βxi+εi,i=1,,n.
α+βxiyiεi(x¯,y¯)
(yiy¯)=β(xix¯)+(εiε¯),i=1,,n.

मदद करने के लिए अंतर्ज्ञान का विकास, हम मान लेंगे कि सबसे सरल गॉस-मार्कोव मान्यताओं संतुष्ट हैं: nonstochastic, Σ n मैं = 1 ( एक्स मैं - ˉ एक्स ) 2 > 0 सभी के लिए n , और ε मैं ~ आईआईडी ( 0 , σ 2 ) सभी के लिए मैं = 1 , ... , एन । जैसा कि आप पहले से ही अच्छी तरह से जानते हैं, ये स्थितियां गारंटी देती हैं कि वारxii=1n(xix¯)2>0nεiiid(0,σ2)i=1,,n जहां वार

Varβ^=1nσ2(Varx)1,
के नमूना प्रसरण है एक्स । शब्दों में, इस सूत्र तीन दावे करती है: "का विचरण β विपरीत रूप से नमूने का आकार के लिए आनुपातिक है एन , यह सीधे के विचरण के लिए आनुपातिक है ε , और यह विपरीत रूप से विचरण के लिए आनुपातिक है एक्स ।"Varxxβ^nεx

क्यों नमूना आकार दोगुना करना चाहिए, paribus Ceteris , कारण का विचरण β छमाही में कटौती होने के लिए? इस परिणाम परिचित आईआईडी धारणा से जुड़ा हुआ है के लिए लागू किया ε : चूंकि अलग-अलग त्रुटियों आईआईडी माना जाता है, प्रत्येक अवलोकन व्यवहार किया जाना चाहिए पूर्व पूर्व समान रूप से जानकारीपूर्ण होने के रूप में। और, अवलोकनों की संख्या को दोगुना करने से उन मापदंडों के बारे में जानकारी की मात्रा दोगुनी हो जाती है जो x और y के बीच (ग्रहण किए गए रैखिक) संबंध का वर्णन करते हैं । आधे से अधिक मापदंडों के बारे में अनिश्चितता के बारे में दोगुनी जानकारी होने से कटौती होती है। इसी तरह, यह दोगुना होने के रूप में किसी के अंतर्ज्ञान को विकसित करने के लिए सीधा होना चाहिएβ^εxy भी की विचरण डबल्स βσ2β^

आइए बारी है, तो, अपने मुख्य सवाल है, का दावा है कि के विचरण के लिए अंतर्ज्ञान विकसित करने के बारे में है जो करने के लिए β है विपरीत आनुपातिक के विचरण करने के लिए एक्स । धारणाओं को औपचारिक रूप देने के लिए, आइए अब हम दो अलग-अलग द्विभाजित रैखिक प्रतिगमन मॉडल पर विचार करें, जिन्हें मॉडल ( 1 ) और मॉडल ( 2 ) कहा जाता है । हम मान लेंगे कि दोनों मॉडलों गॉस-मार्कोव प्रमेय का सबसे सरल रूप की मान्यताओं को संतुष्ट और मॉडल की ठीक उसी मूल्यों का हिस्सा है कि α , β , एन , और σ 2 । इन मान्यताओं के तहत, यह दिखाना आसान है कि β^x(1)(2)αβnσ2; शब्दों में, दोनों अनुमानक निष्पक्ष हैं। महत्वपूर्ण बात है, हम भी समझेंगे कि जबकि ˉ एक्स ( 1 ) = ˉ एक्स ( 2 ) = ˉ एक्स ,वारEβ^(1)=Eβ^(2)=βx¯(1)=x¯(2)=x¯ । व्यापकता के नुकसान के बिना, मान लें कि वारVarx(1)Varx(2)Varx(1)>Varx(2)β^β^(1)β^(2)βVarβ^(k)=1nσ2/Varx(k))k=1,2Varx(1)>Varx(2) by assumption, it follows that Varβ^(1)<Varβ^(2). What, then, is the intuition behind this result?

Because by assumption Varx(1)>Varx(2), on average each xi(1) will be farther away from x¯ than is the case, on average, for xi(2). Let us denote the expected average absolute difference between xi and x¯ by dx. The assumption that Varx(1)>Varx(2) implies that dx(1)>dx(2). The bivariate linear regression model, expressed in deviations from means, states that dy=βdx(1) for Model (1) and dy=βdx(2) for Model (2). If β0, this means that the deterministic component of Model (1), βdx(1), has a greater influence on dy than does the deterministic component of Model (2), βdx(2). Recall that the both models are assumed to satisfy the Gauss-Markov assumptions, that the error variances are the same in both models, and that β(1)=β(2)=β. Since Model (1) imparts more information about the contribution of the deterministic component of y than does Model (2), it follows that the precision with which the deterministic contribution can be estimated is greater for Model (1) than is the case for Model (2). The converse of greater precision is a lower variance of the point estimate of β.

It is reasonably straightforward to generalize the intuition obtained from studying the simple regression model to the general multiple linear regression model. The main complication is that instead of comparing scalar variances, it is necessary to compare the "size" of variance-covariance matrices. Having a good working knowledge of determinants, traces and eigenvalues of real symmetric matrices comes in very handy at this point :-)


1

Say we have n observations (or sample size) and p parameters.

The covariance matrix Var(β^) of the estimated parameters β^1,β^2 etc. is a representation of the accuracy of the estimated parameters.

If in an ideal world the data could be perfectly described by the model, then the noise will be σ2=0. Now, the diagonal entries of Var(β^) correspond to Var(β1^),Var(β2^) etc. The derived formula for the variance agrees with the intuition that if the noise is lower, the estimates will be more accurate.

In addition, as the number of measurements gets larger, the variance of the estimated parameters will decrease. So, overall the absolute value of the entries of XTX will be higher, as the number of columns of XT is n and the number of rows of X is n, and each entry of XTX is a sum of n product pairs. The absolute value of the entries of the inverse (XTX)1 will be lower.

Hence, even if there is a lot of noise, we can still reach good estimates βi^ of the parameters if we increase the sample size n.

I hope this helps.

Reference: Section 7.3 on Least squares: Cosentino, Carlo, and Declan Bates. Feedback control in systems biology. Crc Press, 2011.


1

This builds on @Alecos Papadopuolos' answer.

Recall that the result of a least-squares regression doesn't depend on the units of measurement of your variables. Suppose your X-variable is a length measurement, given in inches. Then rescaling X, say by multiplying by 2.54 to change the unit to centimeters, doesn't materially affect things. If you refit the model, the new regression estimate will be the old estimate divided by 2.54.

The XX matrix is the variance of X, and hence reflects the scale of measurement of X. If you change the scale, you have to reflect this in your estimate of β, and this is done by multiplying by the inverse of XX.

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.