लॉजिस्टिक रिग्रेशन से फिट किए गए मानों के लिए मानक त्रुटियों की गणना कैसे की जाती है?


29

जब आप लॉजिस्टिक रिग्रेशन मॉडल से फिट किए गए मूल्य का अनुमान लगाते हैं, तो मानक त्रुटियों की गणना कैसे की जाती है? मेरा मतलब है कि फिट किए गए मूल्यों के लिए, गुणांक के लिए नहीं (जिसमें फिशर्स सूचना मैट्रिक्स शामिल है)।

मुझे केवल यह पता चला है कि संख्याओं को कैसे प्राप्त किया जाए R(जैसे, यहाँ r-help पर, या यहाँ स्टैक ओवरफ़्लो पर), लेकिन मैं सूत्र नहीं ढूँढ सकता।

pred <- predict(y.glm, newdata= something, se.fit=TRUE)

यदि आप ऑनलाइन स्रोत प्रदान कर सकते हैं (अधिमानतः विश्वविद्यालय की वेबसाइट पर), तो यह शानदार होगा।

जवाबों:


35

भविष्यवाणी अनुमानित गुणांकों का सिर्फ एक रैखिक संयोजन है। गुणांक asymptotically सामान्य हैं इसलिए उन गुणांकों का एक रैखिक संयोजन asymptotically सामान्य भी होगा। इसलिए यदि हम पैरामीटर अनुमानों के लिए सहसंयोजक मैट्रिक्स प्राप्त कर सकते हैं तो हम उन अनुमानों के रैखिक संयोजन के लिए मानक त्रुटि आसानी से प्राप्त कर सकते हैं। अगर मैं के रूप में सहप्रसरण मैट्रिक्स निरूपित और और एक सदिश में मेरी रैखिक संयोजन के लिए गुणांक लिखने के रूप में तो मानक त्रुटि बस हैΣCCΣC

# Making fake data and fitting the model and getting a prediction
set.seed(500)
dat <- data.frame(x = runif(20), y = rbinom(20, 1, .5))
o <- glm(y ~ x, data = dat)
pred <- predict(o, newdata = data.frame(x=1.5), se.fit = TRUE)

# To obtain a prediction for x=1.5 I'm really
# asking for yhat = b0 + 1.5*b1 so my
# C = c(1, 1.5)
# and vcov applied to the glm object gives me
# the covariance matrix for the estimates
C <- c(1, 1.5)
std.er <- sqrt(t(C) %*% vcov(o) %*% C)

> pred$se.fit
[1] 0.4246289
> std.er
          [,1]
[1,] 0.4246289

हम देखते हैं कि मेरे द्वारा दिखाया गया 'हाथ से जाने वाला' तरीका वैसा ही मानक त्रुटि देता है जैसा कि रिपोर्ट किया गया है predict


2
मेरा एक संबंधित प्रश्न है। जब हम लीनियर रिग्रेशन (लॉजिस्टिक नहीं) पर मूल्य और विश्वास अंतराल की भविष्यवाणी करते हैं, तो हम त्रुटि विचरण / मानक त्रुटि को शामिल करते हैं। लेकिन उपस्कर प्रतिगमन नहीं करता है। क्या यह अंतर इस तथ्य से आता है कि लॉजिस्टिक रिग्रेशन के देखे गए मान या तो 0 या 1 हैं और त्रुटि विचरण का अनुमान लगाने का कोई मतलब नहीं है? मुझे लगता है कि हमें कम से कम कुछ करना चाहिए, लेकिन मुझे कुछ याद आ रहा है।
user2457873

3
पुराना सवाल है, लेकिन इस धागे ने मुझे अभी-अभी मदद की है, इसलिए यहाँ जाता है: लॉगिट 0 या 1 का अवलोकन करता है, लेकिन यह एक संभावना की भविष्यवाणी करता है। जब आपको किसी फिटेड मान की मानक त्रुटि मिलती है, तो यह रैखिक भविष्यवक्ता के पैमाने पर होता है। आप लॉजिक (फिट +/- 1.96 * se.fit) बात करके संभावना पर एक विश्वास अंतराल प्राप्त करते हैं
जेनेरिक_युसर

बस इस बात से अवगत रहें कि यह एसिम्प्टोटिक सामान्य लगभग का उपयोग करता है, जो लॉजिस्टिक मॉडल (हॉस-डोनर घटना के लिए इस साइट की खोज) के लिए काफी खराब हो सकता है। गुणांक के लिए, उदाहरण के लिए रूपरेखा (MASS में गोपनीय फ़ंक्शन द्वारा उपयोग किया जाता है) उदाहरण के लिए इसका निवारण किया जा सकता है। रैखिक भविष्यवक्ताओं के लिए यह संभव नहीं है ...
kjetil b halvorsen

2
यह गलत है कि ओपी ने क्या मांगा; जीएलएम आप फिट करते हैं पहचान लिंक फ़ंक्शन का उपयोग करता है, न कि लॉगिट लिंक फ़ंक्शन। आपको o <- glm(y ~ x, data = dat, family = binomial)इसके बजाय फिट होना चाहिए । क्या आप कृपया संशोधित कर सकते हैं? आपकी व्याख्या लॉग-ऑड्स एसई ( type = "link"विकल्प का उपयोग करके ) के आकलन के लिए काम करती है , लेकिन विकल्प predictका उपयोग करते समय एसई नहीं type = "response"
ज़िया झांग
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.