मेरा सवाल एक अलग सवाल की टिप्पणियों में @whuber के साथ चर्चा से बाहर हो गया ।
विशेष रूप से, @whuber की टिप्पणी इस प्रकार थी:
एक कारण यह आपको आश्चर्यचकित कर सकता है कि एक सहसंबंध परीक्षण और एक प्रतिगमन ढलान परीक्षण अंतर्निहित धारणाएं अलग हैं - इसलिए जब हम समझते हैं कि सहसंबंध और ढलान वास्तव में एक ही चीज़ को माप रहे हैं, तो उनके पी-मान समान क्यों होना चाहिए? इससे पता चलता है कि कैसे ये मुद्दे गहराई से चलते हैं कि क्या और को संख्यात्मक रूप से बराबर होना चाहिए।β
इसके बारे में मेरी सोच मिली और मुझे कई तरह के दिलचस्प जवाब मिले। उदाहरण के लिए, मुझे यह प्रश्न " सहसंबंध गुणांक का मान " मिला, लेकिन यह नहीं देख सकता कि यह ऊपर की टिप्पणी को कैसे स्पष्ट करेगा।
मुझे एक सरल रेखीय प्रतिगमन में पियर्सन के और स्लोप के संबंधों के बारे में अधिक दिलचस्प जवाब मिले ( उदाहरण के लिए यहां और यहां देखें ) लेकिन उनमें से कोई भी जवाब नहीं देता है जो @whuber ने अपनी टिप्पणी में उल्लेख किया है (कम से कम स्पष्ट रूप से) मेरे लिए)।β
प्रश्न 1: एक सहसंबंध परीक्षण और एक प्रतिगमन ढलान परीक्षण अंतर्निहित धारणाएं क्या हैं?
मेरे दूसरे प्रश्न के लिए निम्नलिखित आउटपुट पर विचार करें R
:
model <- lm(Employed ~ Population, data = longley)
summary(model)
Call:
lm(formula = Employed ~ Population, data = longley)
Residuals:
Min 1Q Median 3Q Max
-1.4362 -0.9740 0.2021 0.5531 1.9048
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.3807 4.4224 1.895 0.0789 .
Population 0.4849 0.0376 12.896 3.69e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared: 0.9224, Adjusted R-squared: 0.9168
F-statistic: 166.3 on 1 and 14 DF, p-value: 3.693e-09
और cor.test()
फ़ंक्शन का आउटपुट :
with(longley, cor.test(Population, Employed))
Pearson's product-moment correlation
data: Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.8869236 0.9864676
sample estimates:
cor
0.9603906
जैसा कि lm()
और cov.test()
आउटपुट द्वारा देखा जा सकता है , पियर्सन के सहसंबंध गुणांक और ढलान का अनुमान ( ) क्रमशः भिन्न होता है, 0.96 बनाम 0.485, लेकिन टी-मूल्य और पी-मान समान हैं।β 1
फिर मैंने यह भी देखने की कोशिश की कि क्या मैं और लिए t-value की गणना करने में सक्षम , जो कि और भिन्न होने के बावजूद समान हैं । और यही वह जगह है जहां मैं फंस जाता हूं, कम से कम :β 1 आर β 1 आर
ढलान की गणना ( एक सरल रेखीय प्रतीपगमन में के वर्गों का कुल रकम का प्रयोग करके) एक्स और वाई :
x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))
गणना कम से कम वर्गों, प्रतिगमन ढलान के अनुमान लगाने के (वहाँ में इस का प्रमाण है करावली के आर बुक 1 संस्करण , पेज 393):
b1 <- ss.xy/ss.x
b1
# [1] 0.4848781
लिए मानक त्रुटि की गणना करें :
ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029
और के लिए टी मूल्य और पी-मूल्य :
t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09
क्या मैं इस बिंदु पर पता नहीं है, और यह है प्रश्न 2 है, कैसे का उपयोग कर एक ही टी-मूल्य की गणना करने, के बजाय β 1 (शायद बच्चे चरणों में)?
मुझे लगता है कि चूंकि cor.test()
वैकल्पिक परिकल्पना है कि क्या सच सहसंबंध 0 के बराबर नहीं है ( cor.test()
ऊपर आउटपुट देखें ), मैं "पीयरसन सहसंबंध गुणांक के मानक त्रुटि" द्वारा विभाजित Pearson सहसंबंध गुणांक तरह कुछ उम्मीद करेंगे । ऊपर)?! लेकिन वह मानक त्रुटि क्या होगी और क्यों?b1/se.b1
शायद यह एक सहसंबंध परीक्षण और एक प्रतिगमन ढलान परीक्षण अंतर्निहित अंतर्निहित धारणाओं के साथ कुछ करना है !
EDIT (27-Jul-2017): जबकि @whuber ने प्रश्न 1 (और आंशिक रूप से प्रश्न 2 , उनके उत्तर के तहत टिप्पणियां देखें) के लिए एक बहुत विस्तृत विवरण प्रदान किया, मैंने कुछ और खुदाई की और पाया कि ये दोनों पोस्ट ( यहाँ और यहाँ ) करते हैं एक विशिष्ट दिखाने के मानक त्रुटि के लिए , जो जवाब देने के लिए अच्छी तरह से काम करता है प्रश्न 2 , टी मान दिया पुन: पेश करने के लिए है कि आर :
r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956