यह भ्रामक भाषा है। रिपोर्ट किए गए मानों को z- मान कहा जाता है। लेकिन इस मामले में वे सच्चे विचलन के स्थान पर अनुमानित मानक त्रुटि का उपयोग करते हैं । इसलिए वास्तव में वे टी-वैल्यू के करीब हैं । निम्नलिखित तीन
आउटपुटों की तुलना करें: 1) सारांश।
2 एल ) टी-टेस्ट
3) जेड-टेस्ट
> set.seed(1)
> x = rbinom(100, 1, .7)
> coef1 <- summary(glm(x ~ 1, offset=rep(qlogis(0.7),length(x)), family = "binomial"))$coefficients
> coef2 <- summary(glm(x ~ 1, family = "binomial"))$coefficients
> coef1[4] # output from summary.glm
[1] 0.6626359
> 2*pt(-abs((qlogis(0.7)-coef2[1])/coef2[2]),99,ncp=0) # manual t-test
[1] 0.6635858
> 2*pnorm(-abs((qlogis(0.7)-coef2[1])/coef2[2]),0,1) # manual z-test
[1] 0.6626359
वे सटीक पी-वैल्यू नहीं हैं। द्विपद वितरण का उपयोग करते हुए पी-मूल्य की एक सटीक गणना बेहतर काम करेगी (आजकल कंप्यूटिंग शक्ति के साथ, यह कोई समस्या नहीं है)। त्रुटि के गॉसियन वितरण को मानते हुए टी-वितरण, सटीक नहीं है (यह पी को कम कर देता है, अल्फा स्तर से अधिक "वास्तविकता" में कम बार होता है)। निम्नलिखित तुलना देखें:
# trying all 100 possible outcomes if the true value is p=0.7
px <- dbinom(0:100,100,0.7)
p_model = rep(0,101)
for (i in 0:100) {
xi = c(rep(1,i),rep(0,100-i))
model = glm(xi ~ 1, offset=rep(qlogis(0.7),100), family="binomial")
p_model[i+1] = 1-summary(model)$coefficients[4]
}
# plotting cumulative distribution of outcomes
outcomes <- p_model[order(p_model)]
cdf <- cumsum(px[order(p_model)])
plot(1-outcomes,1-cdf,
ylab="cumulative probability",
xlab= "calculated glm p-value",
xlim=c(10^-4,1),ylim=c(10^-4,1),col=2,cex=0.5,log="xy")
lines(c(0.00001,1),c(0.00001,1))
for (i in 1:100) {
lines(1-c(outcomes[i],outcomes[i+1]),1-c(cdf[i+1],cdf[i+1]),col=2)
# lines(1-c(outcomes[i],outcomes[i]),1-c(cdf[i],cdf[i+1]),col=2)
}
title("probability for rejection as function of set alpha level")
काला वक्र समानता का प्रतिनिधित्व करता है। लाल वक्र इसके नीचे है। इसका मतलब है कि glm समरी फंक्शन द्वारा दिए गए परिकलित पी-वैल्यू के लिए, हम इस स्थिति (या बड़े अंतर) को वास्तविकता में पी-वैल्यू संकेत की तुलना में कम बार पाते हैं।
glm