क्या रेखीय प्रतिगमन गुणांक के लिए आत्मविश्वास अंतराल सामान्य या

चलो कुछ रैखिक मॉडल हैं, उदाहरण के लिए सिर्फ सरल एनोवा:

# data generation
set.seed(1.234)                      
Ng <- c(41, 37, 42)                    
data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1)      
fact <- as.factor(rep(LETTERS[1:3], Ng)) 

m1 = lm(data ~ 0 + fact)
summary(m1)

परिणाम इस प्रकार है:

Call:
lm(formula = data ~ 0 + fact)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.30047 -0.60414 -0.04078  0.54316  2.25323 

Coefficients:
      Estimate Std. Error t value Pr(>|t|)    
factA  -0.9142     0.1388  -6.588 1.34e-09 ***
factB   0.1484     0.1461   1.016    0.312    
factC   1.0990     0.1371   8.015 9.25e-13 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.8886 on 117 degrees of freedom
Multiple R-squared: 0.4816,     Adjusted R-squared: 0.4683 
F-statistic: 36.23 on 3 and 117 DF,  p-value: < 2.2e-16

अब मैं इन मापदंडों के विश्वास अंतराल का अनुमान लगाने के लिए दो अलग-अलग तरीकों की कोशिश करता हूं

c = coef(summary(m1))

# 1st method: CI limits from SE, assuming normal distribution
cbind(low = c[,1] - qnorm(p = 0.975) * c[,2], 
    high = c[,1] + qnorm(p = 0.975) * c[,2])

# 2nd method
confint(m1)

प्रशन:

अनुमानित रैखिक प्रतिगमन गुणांक का वितरण क्या है? सामान्य या $t$ ?
दोनों पद्धतियाँ अलग-अलग परिणाम क्यों देती हैं? सामान्य वितरण और एसई को सही मानकर, मैं दोनों विधियों से समान परिणाम की उम्मीद करूंगा।

आपका बहुत बहुत धन्यवाद!

डेटा ~ 0 + तथ्य

एक उत्तर के बाद EDIT :

उत्तर सटीक है, यह बिल्कुल वैसा ही परिणाम देगा जैसा कि confint(m1)!

# 3rd method
cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], 
    high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])

r regression confidence-interval

— जिज्ञासु
स्रोत

संबं धत ल ं क आँकड़े

— जिज्ञासु

(1) जब त्रुटियों सामान्य रूप से वितरित कर रहे हैं और उनके विचरण कर रहा है नहीं , तो ज्ञात एक है

\frac{\hat{β} - β_{0}}{s e (\hat{β})}

$\frac{\hat{\beta} - \beta_0}{{\rm se}(\hat{\beta})}$

t

$t$ शून्य परिकल्पना के तहत -distribution

सच प्रतिगमन गुणांक है। में डिफ़ॉल्ट परीक्षण करने के लिए है

, तो

-statistics सूचना दी बस देखते हैं

β_{0}

$\beta_0$ R

β_{0} = 0

$\beta_0 = 0$

t

$t$

\frac{\hat{β}}{s e (\hat{β})}

$\frac{\hat{\beta}}{{\rm se}(\hat{\beta})}$

ध्यान दें कि, कुछ नियमितता परिस्थितियों में, इसके बाद के संस्करण आंकड़ा हमेशा है asymptotically सामान्य रूप से वितरित, त्रुटियों सामान्य हो या न या त्रुटि विचरण जाना जाता है।

$t$

विशेष रूप से, याद रखें कि सामान्य वितरण का उपयोग करके विश्वास अंतराल है

\hat{β} \pm z_{α / 2} \cdot s e (\hat{β})

$\hat{\beta} \pm z_{\alpha/2} \cdot {\rm se}(\hat{\beta})$

जहां है सामान्य वितरण की quantile। के मानक मामले में $z_{\alpha/2}$ $\alpha/2$ $95\%$ $\alpha = .05$ $z_{\alpha/2} \approx 1.96$ $t$

\hat{β} \pm t_{α / 2, n - p} \cdot s e (\hat{β})

$\hat{\beta} \pm t_{\alpha/2,n-p} \cdot {\rm se}(\hat{\beta})$

जहाँ गुणक स्वतंत्रता के डिग्री के साथ distribution की मात्राओं पर आधारित है जहाँ नमूना आकार है और भविष्यवाणियों की संख्या है। जब $t_{\alpha/2,n-p}$ $t$ $n-p$ $n$ $p$ $n$ $t_{\alpha/2,n-p}$ $z_{\alpha/2}$

नीचे का एक भूखंड है $t$ $5$ $300$ $p=1$ $t$ $z$

यहाँ छवि विवरण दर्ज करें

— मैक्रो
स्रोत

हां!! अच्छा काम का टुकड़ा !! (+1)

— ग्वि ११

मैक्रो, उत्तर के लिए धन्यवाद। लेकिन: आप टी आँकड़ों के वितरण के बारे में बोलते हैं, जबकि मैंने प्रतिगमन गुणांक के वितरण के बारे में पूछा। मेरी समझ यह है कि प्रतिगमन गुणांक एक वितरण है जिसके माध्य (गुणांक अनुमान) और इसकी मानक त्रुटि है। मैंने इस वितरण के बारे में पूछा, न कि परीक्षण सांख्यिकी वितरण के बारे में। मुझे कुछ याद आ सकता है इसलिए कृपया अधिक स्पष्ट तरीके से समझाने की कोशिश करें :) धन्यवाद

— जिज्ञासु

@ टॉमस, अच्छा सवाल। जैसा कि मैंने ऊपर लिखा है,

\frac{\hat{β} - β_{0}}{s e (\hat{β})}

$\frac{ {\hat \beta}−β_{0}}{{\rm se}(\hat β)}$

t

$t$

\hat{β}

$\hat β$

t

$t$

β_{0}

$β_0$

s e (\hat{β})

${\rm se}(\hat β)$

\hat{β}

$\hat β$ एक सामान्य वितरण (स्थानांतरित कर दिया और उसी तरह से बढ़ाया) है। क्या यह आपके लिए कुछ भी स्पष्ट करता है?

— मैक्रो

आप बिलकुल सही कह रहे हैं! यह बिल्कुल वैसा ही परिणाम देगा confint(m1), जैसा कि छोटे नमूने के आकार के लिए भी होता है!cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])

— जिज्ञासु

\hat{β}

$\hat{\beta}$

\hat{β} - β_{0}

$\hat{\beta}-\beta_0$

β_{0}

$\beta_0$

t

$t$