लॉजिस्टिक रिग्रेशन आउटपुट, ची-स्क्वेर्ड टेस्ट और OR के लिए आत्मविश्वास अंतराल के बीच मेरे पी-वैल्यू क्यों भिन्न हैं?


37

मैंने एक लॉजिस्टिक रिग्रेशन बनाया है जहां उपचार ( Cureबनाम No Cure) प्राप्त करने के बाद परिणाम चर को ठीक किया जा रहा है । इस अध्ययन के सभी रोगियों ने उपचार प्राप्त किया। मुझे यह देखने में दिलचस्पी है कि क्या मधुमेह इस परिणाम से जुड़ा हुआ है।

R में मेरा लॉजिस्टिक रिग्रेशन आउटपुट निम्नानुसार है:

Call:
glm(formula = Cure ~ Diabetes, family = binomial(link = "logit"), data = All_patients)
...
Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)   1.2735     0.1306   9.749   <2e-16 ***
Diabetes     -0.5597     0.2813  -1.990   0.0466 *  
...
    Null deviance: 456.55  on 415  degrees of freedom
Residual deviance: 452.75  on 414  degrees of freedom
  (2 observations deleted due to missingness)
AIC: 456.75

हालाँकि, अंतर अनुपात के लिए आत्मविश्वास अंतराल में 1 शामिल हैं :

                   OR     2.5 %   97.5 %
(Intercept) 3.5733333 2.7822031 4.646366
Diabetes    0.5713619 0.3316513 1.003167

जब मैं इन आंकड़ों पर ची-चुकता परीक्षण करता हूं तो मुझे निम्नलिखित मिलते हैं:

data:  check
X-squared = 3.4397, df = 1, p-value = 0.06365

यदि आप इसे अपने आप ठीक करना चाहते हैं, तो इस प्रकार से और ठीक किए गए समूहों में मधुमेह का वितरण निम्नानुसार है:

Diabetic cure rate:      49 /  73 (67%)
Non-diabetic cure rate: 268 / 343 (78%)

मेरा प्रश्न है: 1 मान सहित पी-मान और विश्वास अंतराल क्यों नहीं है?


मधुमेह की गणना के लिए विश्वास अंतराल कैसे था? यदि आप वाल्ड CI बनाने के लिए पैरामीटर अनुमान और मानक त्रुटि का उपयोग करते हैं, तो आपको ऊपरी समाप्ति बिंदु के रूप में एक्सप (- 5597 + 1.96/13/13) = .99168 मिलता है।
हार्ड

@ hard2fathom, सबसे अधिक संभावना है कि ओपी इस्तेमाल किया confint()। यानी, संभावना की रूपरेखा बनाई गई थी। इस तरह से आपको CI मिले जो LRT के अनुरूप हों। आपकी गणना सही है, लेकिन इसके बजाय Wald CIs का गठन करें। नीचे मेरे उत्तर में अधिक जानकारी है।
गूँग -

मैंने इसे और अधिक ध्यान से पढ़ा इसके बाद मैंने इसे उकेरा। समझ में आता है।
हार्ड

जवाबों:


64

सामान्यीकृत रैखिक मॉडल के साथ, तीन अलग-अलग प्रकार के सांख्यिकीय परीक्षण होते हैं जिन्हें चलाया जा सकता है। ये हैं: वाल्ड परीक्षण, संभावना अनुपात परीक्षण और स्कोर परीक्षण। उत्कृष्ट यूसीएलए सांख्यिकी सहायता साइट की चर्चा उनके यहाँ है । निम्नलिखित आंकड़ा (उनकी साइट से कॉपी) उन्हें चित्रित करने में मदद करता है:

यहाँ छवि विवरण दर्ज करें

  1. zNNN
  2. संभावना अनुपात परीक्षण इसकी अधिकतम और अशक्त पर संभावना (या लॉग संभावना में अंतर) के अनुपात को देखते हैं। यह अक्सर सबसे अच्छा परीक्षण माना जाता है।
  3. स्कोर परीक्षण शून्य मान पर संभावना की ढलान पर आधारित है। यह आमतौर पर कम शक्तिशाली होता है, लेकिन ऐसे समय होते हैं जब पूर्ण संभावना की गणना नहीं की जा सकती है और इसलिए यह एक अच्छा विकल्प है।

summary.glm()confint()profile()1.96χ2

Nppα=.05.05

नीचे मैं रैखिक भविष्यवक्ता के पैमाने पर गुणांक का प्रोफ़ाइल करता हूं और संभावना अनुपात परीक्षण को स्पष्ट रूप से (माध्यम से anova.glm()) चलाता हूं । मुझे आपके समान परिणाम मिलते हैं:

library(MASS)
x = matrix(c(343-268,268,73-49,49), nrow=2, byrow=T);  x
#      [,1] [,2]
# [1,]   75  268
# [2,]   24   49
D = factor(c("N","Diabetes"), levels=c("N","Diabetes"))
m = glm(x~D, family=binomial)
summary(m)
# ...
# Coefficients:
#             Estimate Std. Error z value Pr(>|z|)    
# (Intercept)  -1.2735     0.1306  -9.749   <2e-16 ***
# DDiabetes     0.5597     0.2813   1.990   0.0466 *  
# ...
confint(m)
# Waiting for profiling to be done...
#                    2.5 %    97.5 %
# (Intercept) -1.536085360 -1.023243
# DDiabetes   -0.003161693  1.103671
anova(m, test="LRT")
# ...
#      Df Deviance Resid. Df Resid. Dev Pr(>Chi)  
# NULL                     1     3.7997           
# D     1   3.7997         0     0.0000  0.05126 .
chisq.test(x)
#         Pearson's Chi-squared test with Yates' continuity correction
# 
# X-squared = 3.4397, df = 1, p-value = 0.06365

जैसा कि @JWilliman ने एक टिप्पणी में बताया (अब हटा दिया गया है), में R, आप स्कोर-आधारित पी-मान का उपयोग करके भी प्राप्त कर सकते हैं anova.glm(model, test="Rao")। नीचे, नोट उदाहरण में है कि पी-मूल्य नहीं ऊपर ची-वर्ग की परीक्षा में के रूप में काफी एक ही डिफ़ॉल्ट रूप से, क्योंकि है Rकी chisq.test()एक निरंतरता सुधार लागू होता है। यदि हम उस सेटिंग को बदलते हैं, तो P-मान मेल खाते हैं:

anova(m, test="Rao")
# ...
#      Df Deviance Resid. Df Resid. Dev   Rao Pr(>Chi)  
# NULL                     1     3.7997                 
# D     1   3.7997         0     0.0000 4.024  0.04486 *
chisq.test(x, correct=FALSE)
#   Pearson's Chi-squared test
# 
# data:  x
# X-squared = 4.024, df = 1, p-value = 0.04486

12
+1 यह एक बहुत ही जानकारीपूर्ण विश्लेषण है, जो कुछ रहस्यमय व्यवहार को स्पष्ट और आधिकारिक रूप से संबोधित करता है और उपयोगी मार्गदर्शन प्रदान करता है।
whuber

अच्छा उत्तर गूँज, हालाँकि मुझे समझ में नहीं आ रहा है कि आप "मैं क्या कहूँगा कि आपका डेटा पारंपरिक मानदंडों द्वारा काफी महत्वपूर्ण नहीं है"।
mark999

@ mark999, यहाँ सबसे विश्वसनीय परीक्षण (LRT & chi-squared) दोनों ही थोड़ा अधिक .05 हैं।
गंग - मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.