क्या रेखीय प्रतिगमन गुणांक के लिए आत्मविश्वास अंतराल सामान्य या


18

चलो कुछ रैखिक मॉडल हैं, उदाहरण के लिए सिर्फ सरल एनोवा:

# data generation
set.seed(1.234)                      
Ng <- c(41, 37, 42)                    
data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1)      
fact <- as.factor(rep(LETTERS[1:3], Ng)) 

m1 = lm(data ~ 0 + fact)
summary(m1)

परिणाम इस प्रकार है:

Call:
lm(formula = data ~ 0 + fact)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.30047 -0.60414 -0.04078  0.54316  2.25323 

Coefficients:
      Estimate Std. Error t value Pr(>|t|)    
factA  -0.9142     0.1388  -6.588 1.34e-09 ***
factB   0.1484     0.1461   1.016    0.312    
factC   1.0990     0.1371   8.015 9.25e-13 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.8886 on 117 degrees of freedom
Multiple R-squared: 0.4816,     Adjusted R-squared: 0.4683 
F-statistic: 36.23 on 3 and 117 DF,  p-value: < 2.2e-16 

अब मैं इन मापदंडों के विश्वास अंतराल का अनुमान लगाने के लिए दो अलग-अलग तरीकों की कोशिश करता हूं

c = coef(summary(m1))

# 1st method: CI limits from SE, assuming normal distribution
cbind(low = c[,1] - qnorm(p = 0.975) * c[,2], 
    high = c[,1] + qnorm(p = 0.975) * c[,2])

# 2nd method
confint(m1)

प्रशन:

  1. अनुमानित रैखिक प्रतिगमन गुणांक का वितरण क्या है? सामान्य या t ?
  2. दोनों पद्धतियाँ अलग-अलग परिणाम क्यों देती हैं? सामान्य वितरण और एसई को सही मानकर, मैं दोनों विधियों से समान परिणाम की उम्मीद करूंगा।

आपका बहुत बहुत धन्यवाद!

डेटा ~ 0 + तथ्य

एक उत्तर के बाद EDIT :

उत्तर सटीक है, यह बिल्कुल वैसा ही परिणाम देगा जैसा कि confint(m1)!

# 3rd method
cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], 
    high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])

जवाबों:


19

(1) जब त्रुटियों सामान्य रूप से वितरित कर रहे हैं और उनके विचरण कर रहा है नहीं , तो ज्ञात β - β 0 एक हैटी

β^β0se(β^)
t शून्य परिकल्पना के तहत -distribution सच प्रतिगमन गुणांक है। में डिफ़ॉल्ट परीक्षण करने के लिए है β 0 = 0 , तो टी -statistics सूचना दी बस देखते हैं ββ0Rβ0=0t
β^se(β^)

ध्यान दें कि, कुछ नियमितता परिस्थितियों में, इसके बाद के संस्करण आंकड़ा हमेशा है asymptotically सामान्य रूप से वितरित, त्रुटियों सामान्य हो या न या त्रुटि विचरण जाना जाता है।

t

विशेष रूप से, याद रखें कि सामान्य वितरण का उपयोग करके विश्वास अंतराल है

β^±zα/2se(β^)

जहां है α / 2 सामान्य वितरण की quantile। 95 % के मानक मामले मेंzα/2α/295%α=.05zα/21.96t

β^±tα/2,npse(β^)

जहाँ गुणक स्वतंत्रता के n - p डिग्री के साथ t- distribution की मात्राओं पर आधारित है जहाँ n नमूना आकार है और p भविष्यवाणियों की संख्या है। जब एनtα/2,nptnpnpntα/2,npzα/2

नीचे का एक भूखंड हैt5300p=1tz

यहाँ छवि विवरण दर्ज करें


हां!! अच्छा काम का टुकड़ा !! (+1)
ग्वि ११

मैक्रो, उत्तर के लिए धन्यवाद। लेकिन: आप टी आँकड़ों के वितरण के बारे में बोलते हैं, जबकि मैंने प्रतिगमन गुणांक के वितरण के बारे में पूछा। मेरी समझ यह है कि प्रतिगमन गुणांक एक वितरण है जिसके माध्य (गुणांक अनुमान) और इसकी मानक त्रुटि है। मैंने इस वितरण के बारे में पूछा, न कि परीक्षण सांख्यिकी वितरण के बारे में। मुझे कुछ याद आ सकता है इसलिए कृपया अधिक स्पष्ट तरीके से समझाने की कोशिश करें :) धन्यवाद
जिज्ञासु

2
@ टॉमस, अच्छा सवाल। जैसा कि मैंने ऊपर लिखा है,
β^β0se(β^)
tβ^tβ0se(β^)β^ एक सामान्य वितरण (स्थानांतरित कर दिया और उसी तरह से बढ़ाया) है। क्या यह आपके लिए कुछ भी स्पष्ट करता है?
मैक्रो

आप बिलकुल सही कह रहे हैं! यह बिल्कुल वैसा ही परिणाम देगा confint(m1), जैसा कि छोटे नमूने के आकार के लिए भी होता है!cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])
जिज्ञासु

β^β^β0β0टी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.