पहचान लिंक के साथ ओएलएस बनाम पॉइसन जीएलएम


11

मेरे सवाल से सामान्य रूप से पॉइसन रिग्रेशन और जीएलएम की मेरी खराब समझ का पता चलता है। यहाँ मेरा प्रश्न बताने के लिए कुछ नकली डेटा दिए गए हैं:

### some fake data
x=c(1:14)
y=c(0,  1,  2,  3,  1,  4,  9, 18, 23, 31, 20, 25, 37, 45)

कुछ कस्टम फ़ंक्शंस psuedo-R2:

### functions of pseudo-R2

psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)}

predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / sum((actuals - mean(actuals))^2)}

फिट चार मॉडल: पहचान लिंक के साथ ओएलएस, गाऊसी जीएलएम, लॉग लिंक के साथ पॉइसन जीएलएम, पहचान लिंक के साथ पॉइसन जीएलएम

#### OLS MODEL
mdl.ols=lm(y~x)
summary(mdl.ols)
pred.ols = predict(mdl.ols)

summary(mdl.ols)$r.squared
predR2(y, pred.ols)

#### GLM MODEL, family=gaussian(link="identity")
mdl.guass <- glm(y~x, family=gaussian(link="identity"), maxit=500)
summary(mdl.guass)
pred.guass = predict(mdl.guass)

psuR2(mdl.guass$null.deviance, mdl.guass$deviance)
predR2(y, pred.guass)

#### GLM MODEL, family=possion (canonical link)
mdl.poi_log <- glm(y~x, family=poisson(link="log"), maxit=500)
summary(mdl.poi_log)
pred.poi_log= exp(predict(mdl.poi_log))  #transform

psuR2(mdl.poi_log$null.deviance, mdl.poi_log$deviance)
predR2(y, pred.poi_log)

#### GLM MODEL, family=poisson((link="identity")
mdl.poi_id <- glm(y~x, family=poisson(link="identity"), start=c(0.5,0.5), maxit=500)
summary(mdl.poi_id)
pred.poi_id = predict(mdl.poi_id)

psuR2(mdl.poi_id$null.deviance, mdl.poi_id$deviance)
predR2(y, pred.poi_id)

अंत में भविष्यवाणियों की साजिश करें:

#### Plot the Fit
plot(x, y) 
lines(x, pred.ols)
lines(x, pred.guass, col="green")
lines(x,pred.poi_log, col="red")
lines(x,pred.poi_id, col="blue")

मेरे 2 सवाल हैं:

  1. ऐसा प्रतीत होता है कि पहचान लिंक के साथ ओएलएस और गॉसियन जीएलएम से निकलने वाले गुणांक और पूर्वानुमान बिल्कुल समान हैं। क्या यह हमेशा सच होता है?

  2. मुझे बहुत आश्चर्य हुआ कि पहचान लिंक के साथ ओएलएस का अनुमान और पूर्वानुमान पोइसन जीएलएम से बहुत अलग हैं । मुझे लगा कि दोनों विधियाँ E (Y | X) का अनुमान लगाने की कोशिश करेंगी। जब मैं पॉइसन के लिए पहचान लिंक का उपयोग करता हूं तो संभावना फ़ंक्शन क्या दिखता है?



1
यदि आप पहचान लिंक के साथ पॉइसन मॉडल को अनुमानित करने के लिए कम से कम वर्ग करना चाहते हैं, तो आप एक भारित कम से कम वर्ग मॉडल, mdl.wols = lm (y ~ x, वजन = 1 / log (y + +00000000001)) जहां लॉग फिट कर सकते हैं (y + 1.00000000001) को तब विचरण के पहले अनुमान के रूप में लिया जाता है (sqrt (y + 1E-10)) यह भी काम करता है - ऐसे मॉडल का अनुमान पहचान लिंक के साथ Poisson GLM के बहुत करीब होगा ...
टॉम वेन्सलेर्स

जवाबों:


14
  1. हां, वे वही हैं। एक गाऊसी के लिए MLE कम से कम वर्ग है, इसलिए जब आप पहचान लिंक के साथ एक गाऊसी GLM करते हैं, तो आप OLS कर रहे हैं।

  2. a) " मुझे लगा कि दोनों विधियाँ E (Y | X) का अनुमान लगाने की कोशिश करेंगी "

    वास्तव में, वे करते हैं, लेकिन जिस तरह से सशर्त अपेक्षा का अनुमान लगाया जाता है, वह डेटा के एक फ़ंक्शन के समान नहीं है। यहां तक ​​कि अगर हम वितरण को अनदेखा करते हैं (और इसलिए डेटा कैसे संभावना में प्रवेश करता है) और GLM के बारे में केवल माध्य और विचरण के रूप में सोचते हैं (जैसे कि यह केवल एक भारित प्रतिगमन था), माध्य के साथ एक पॉइसन का विचरण बढ़ता है, इसलिए प्रेक्षणों पर सापेक्ष भार भिन्न होगा।

    बी) " जब मैं पॉइसन के लिए पहचान लिंक का उपयोग करता हूं तो संभावना क्या दिखती है? "

    L(β0,β1)=ieλiλiyi/yi!

    =exp(iλi+yilog(λi)log(yi!)) जहांλi=β0+β1xi

    =exp(i(β0+β1xi)+yilog(β0+β1xi)log(yi!))


4
ग्लेन_ब के दूसरे बिंदु पर एक विस्तार। एक कहानी जो मैंने खुद से कही है, जो मुझे काफी स्पष्ट लगी, वह यह है कि जैसा कि अनुमानित सशर्त माध्य पॉइसन मॉडल में बड़ा हो जाता है, मॉडल को सशर्त माध्य से दूर डेटा मूल्यों के प्रति अधिक सहनशील हो जाता है। सीधे रेखीय मॉडल के साथ इसका विरोध करें, जो समान रूप से सहिष्णु है, चाहे कोई भी सशर्त साधन क्यों न हो।
मैथ्यू ड्र्यू

@Glen_b, क्या मैं आपको यह स्पष्ट करने के लिए कह सकता हूं कि आपने क्या कहा: "इसलिए डेटा कैसे संभावना में प्रवेश करता है"। क्या आप यह कह रहे हैं कि मॉडल फिट होने की संभावना एक OLS और POisson (लिंक = पहचान) के बीच अलग है, जब MLE-- का उपयोग करके फिट किया जाता है। Ie, यदि MLE का उपयोग करते हुए OLS फिट किया जाता है, तो क्या आप फिट की संभावना की गणना करने के लिए सामान्य वितरण के लिए संभावना फ़ंक्शन का उपयोग करते हैं, बनाम बाद के मामले में पॉइसन वितरण से संभावना फ़ंक्शन?
एलेक्स

1
@ शुद्ध अधिकार;
ओएलएस गॉसियन में विधायक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.