लॉजिस्टिक रिग्रेशन के लिए वाल्ड टेस्ट


55

जहां तक ​​मैं समझता हूं कि लॉजिस्टिक रिग्रेशन के संदर्भ में वाल्ड टेस्ट का उपयोग यह निर्धारित करने के लिए किया जाता है कि एक निश्चित भविष्यवक्ता चर महत्वपूर्ण है या नहीं। यह संबंधित गुणांक शून्य होने की अशक्त परिकल्पना को खारिज करता है।X

परीक्षण मानक त्रुटि द्वारा गुणांक का मान विभाजित होते हैं σ

मैं जिस उलझन में हूं वह यह है कि को जेड-स्कोर के रूप में भी जाना जाता है और यह दर्शाता है कि यह संभावना कितनी है कि एक दिया गया अवलोकन सामान्य वितरण (मतलब शून्य के साथ) के रूप में आता है।X/σ



2
शायद यह चारों ओर का दूसरा तरीका हो सकता है, क्योंकि इसमें उत्तर अधिक विकसित है।
फायरबग

जवाबों:


86

गुणांक के अनुमान और लॉजिस्टिक रिग्रेशन (और किसी भी जीएलएम) में अंतर अधिकतम संभावना अनुमान (एमएलई) के माध्यम से पाए जाते हैं । ये अनुमान मापदंडों पर एक टोपी, की तरह कुछ के साथ चिह्नित हैं θ । ब्याज की हमारी पैरामीटर निरूपित किया जाता है θ 0 और यह आम तौर पर 0 है हम चाहे गुणांक 0 है या नहीं से अलग है परीक्षण करना चाहते हैं के रूप में। MLE की asymptotic सिद्धांत से, हम जानते हैं कि बीच का अंतर θ और θ 0 लगभग सामान्य रूप से मतलब 0 से वितरित किया जाएगा (विवरण इस तरह के लैरी Wasserman के रूप में किसी भी गणितीय सांख्यिकी पुस्तक में पाया जा सकता आँकड़ों के सभी )। याद रखें कि मानक त्रुटियां कुछ और नहीं हैंθ^θ0θ^θ0सांख्यिकी के मानक विचलन (सोकल और रोलाफ़ अपनी पुस्तक बायोमेट्री में लिखते हैं : "एक आँकड़ा कई गणना या अनुमानित सांख्यिकीय मात्राओं में से एक है", उदाहरण के लिए माध्य, माध्य, मानक विचलन, सहसंबंध गुणांक, पुन: गुणांक, ...)। मतलब 0 और मानक विचलन के साथ एक सामान्य वितरण डिवाइडिंग : इसके मानक विचलन से 1. वाल्ड आंकड़े के रूप में (जैसे Wasserman (2006) परिभाषित किया गया है मतलब 0 और मानक विचलन के साथ मानक सामान्य बंटन निकलेगा सांख्यिकी सभी , पृष्ठों 153, 214 -215): डब्ल्यू = ( β - β 0 )σ या डब्ल्यू2=(β-β0)2

W=(β^β0)se^(β^)N(0,1)
दूसरा रूप तथ्य यह है कि एक मानक सामान्य वितरण के वर्ग है से उत्पन्न होती हैχ21स्वतंत्रता का 1 डिग्री के साथ -distribution (दो का योग चुकता मानक सामान्य वितरण एक होगाχ22-स्वतंत्रता और इतने पर की 2 डिग्री के साथ वितरण)।
W2=(β^β0)2Var^(β^)χ12
χ12χ22

β0=0

W=β^se^(β^)N(0,1)

zt

ztzptzVar[β^|X]=σ2(XX)1σ2Xσ2σ^2=s2se^(βj^)=s2(XX)jj1tt

YBin(n,p)E(Y)=npVar(Y)=np(1p)ϕϕ=1ϕ<1ϕ>1ztp-values। में R, इन दो उदाहरणों पर गौर:

रसद प्रतिगमन

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
   ---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

z


सामान्य रैखिक प्रतिगमन (OLS)

summary(lm(Fertility~., data=swiss))

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)      66.91518   10.70604   6.250 1.91e-07 ***
Agriculture      -0.17211    0.07030  -2.448  0.01873 *  
Examination      -0.25801    0.25388  -1.016  0.31546    
Education        -0.87094    0.18303  -4.758 2.43e-05 ***
Catholic          0.10412    0.03526   2.953  0.00519 ** 
Infant.Mortality  1.07705    0.38172   2.822  0.00734 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.165 on 41 degrees of freedom

tzt

एक और संबंधित पोस्ट यहां पाया जा सकता है


1
इस अच्छी पोस्ट के लिए बहुत बहुत धन्यवाद जो मेरे सभी सवालों का जवाब देती है।
user695652

1
तो, व्यावहारिक रूप से, आपके उत्कृष्ट उत्तर के पहले भाग के बारे में: यदि किसी कारण से मैं एक आउटपुट अनुपात और वाल्ड स्टेटिस्टिक के रूप में हूं, तो मैं इन से मानक त्रुटि की गणना कर सकता हूं जैसे: SE = (1 / Wald- आँकड़ा) * ln (OR) क्या यह सही है? धन्यवाद!
सैंडर डब्ल्यू। वैन डेर लान

1
@ SanderW.vanderLaan आपकी टिप्पणी के लिए धन्यवाद। हां, मेरा मानना ​​है कि यह सही है। यदि आप एक लॉजिस्टिक रिग्रेशन करते हैं, तो वाल्ड आँकड़े जेड-वैल्यू होंगे।
COOLSerdash

2
इतना बढ़िया जवाब !! मेरे पास कुछ संशोधन सुझाव हैं: मुझे व्यक्तिगत रूप से लगता है कि यह उत्तर पंच सूचियों के साथ विवरण मिला रहा है। मैं इस बात का ब्योरा दूंगा कि रेखीय प्रतिगमन एक अलग ग्राफ में अवशिष्टों के विचरण का कैसे उपयोग कर रहा है।
हायताओ ड्यू

1
फैलाव पैरामीटर और आर कोड के कनेक्शन के लिए, हो सकता है कि हम बात करने के लिए एक और खंड या एक पृथक्करण रेखा खोल सकें।
हायतौ डू
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.