संक्षिप्त जवाब
अतिविशिष्टता कोई फर्क नहीं पड़ता जब एक अर्ध / कविता मॉडल में सशर्त मतलब के लिए प्रतिगमन गुणांक के एक वेक्टर का अनुमान लगाते हैं! आप ठीक हो जाएंगे यदि आप यहां अतिविशिष्टता के बारे में भूल जाते हैं, तो पोइसन परिवार के साथ ग्लमनेट का उपयोग करें और केवल इस बात पर ध्यान दें कि क्या आपकी क्रॉस-वैलिडेटेड भविष्यवाणी की त्रुटि कम है।
योग्यता नीचे दी गई है।
Poisson, Quasi-Poisson और आकलन कार्य:
मैं ऊपर कहता हूं क्योंकि एक पॉइसन या अर्ध-पॉइसन मॉडल में ओवरडिप्रिडेशन (OD) फैलाव (या विचरण या पैमाने या विषमता या प्रसार या जिसे आप इसे कॉल करना चाहते हैं) के साथ कुछ भी करने के लिए प्रभावित करता है और इस तरह मानक पर इसका प्रभाव पड़ता है। त्रुटियों और विश्वास अंतराल लेकिन के सशर्त मतलब के लिए अनुमान छोड़ देता हैy (बुलाया μ) अछूता। यह विशेष रूप से माध्य के रैखिक डिकम्पोजिशन पर लागू होता है, जैसेएक्स⊤β।
यह इस तथ्य से आता है कि सशर्त साधनों के गुणांक के लिए समीकरण समीकरण व्यावहारिक रूप से दोनों पॉइज़न और क्वासी-पॉइसन मॉडल के लिए समान हैं। क्वासी-पोइसन माध्य और एक अतिरिक्त पैरामीटर के संदर्भ में विचरण समारोह को निर्दिष्ट करता है (कहते हैंθ) जैसा वीa r ( y) = θ μ(Poisson = 1 के लिए) के साथ, लेकिन अनुमान लगाने वाले समीकरण का अनुकूलन करते समय प्रासंगिक नहीं होता है। इस प्रकार सशर्त माध्य और विचरण आनुपातिक होने पर अनुमान लगाने में कोई भूमिका नहीं निभाता है । इसलिए बिंदु अनुमान अर्ध-और पॉसन मॉडल के लिए समान हैं!θθθββ^
मुझे एक उदाहरण के साथ स्पष्ट करें (ध्यान दें कि पूरे कोड और आउटपुट को देखने के लिए किसी को स्क्रॉल करने की आवश्यकता है):
> library(MASS)
> data(quine)
> modp <- glm(Days~Age+Sex+Eth+Lrn, data=quine, family="poisson")
> modqp <- glm(Days~Age+Sex+Eth+Lrn, data=quine, family="quasipoisson")
> summary(modp)
Call:
glm(formula = Days ~ Age + Sex + Eth + Lrn, family = "poisson",
data = quine)
Deviance Residuals:
Min 1Q Median 3Q Max
-6.808 -3.065 -1.119 1.819 9.909
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.71538 0.06468 41.980 < 2e-16 ***
AgeF1 -0.33390 0.07009 -4.764 1.90e-06 ***
AgeF2 0.25783 0.06242 4.131 3.62e-05 ***
AgeF3 0.42769 0.06769 6.319 2.64e-10 ***
SexM 0.16160 0.04253 3.799 0.000145 ***
EthN -0.53360 0.04188 -12.740 < 2e-16 ***
LrnSL 0.34894 0.05204 6.705 2.02e-11 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 2073.5 on 145 degrees of freedom
Residual deviance: 1696.7 on 139 degrees of freedom
AIC: 2299.2
Number of Fisher Scoring iterations: 5
> summary(modqp)
Call:
glm(formula = Days ~ Age + Sex + Eth + Lrn, family = "quasipoisson",
data = quine)
Deviance Residuals:
Min 1Q Median 3Q Max
-6.808 -3.065 -1.119 1.819 9.909
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.7154 0.2347 11.569 < 2e-16 ***
AgeF1 -0.3339 0.2543 -1.313 0.191413
AgeF2 0.2578 0.2265 1.138 0.256938
AgeF3 0.4277 0.2456 1.741 0.083831 .
SexM 0.1616 0.1543 1.047 0.296914
EthN -0.5336 0.1520 -3.511 0.000602 ***
LrnSL 0.3489 0.1888 1.848 0.066760 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for quasipoisson family taken to be 13.16691)
Null deviance: 2073.5 on 145 degrees of freedom
Residual deviance: 1696.7 on 139 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 5
जैसा कि आप देख सकते हैं, हालांकि हमारे पास इस डेटा सेट (द्वारा deviance(modp)/modp$df.residual
) में 12.21 के मजबूत अतिसूक्ष्मता है , प्रतिगमन गुणांक (बिंदु अनुमान) बिल्कुल भी नहीं बदलते हैं। लेकिन ध्यान दें कि मानक त्रुटियां कैसे बदलती हैं।
दंडित पॉइसन मॉडल में अतिविशिष्टता के प्रभाव का प्रश्न
दंडित मॉडल ज्यादातर भविष्यवाणी और चर चयन के लिए उपयोग किए जाते हैं और अनुमान के लिए नहीं (अभी तक)। तो जो लोग इन मॉडलों का उपयोग करते हैं, वे सशर्त साधनों के लिए प्रतिगमन मापदंडों में रुचि रखते हैं, बस शून्य की ओर सिकुड़ते हैं। यदि दंड समान है, तो दंडित (अर्ध-) संभावना से प्राप्त सशर्त साधनों के लिए अनुमानित समीकरण भी _ पर निर्भर नहीं करते हैं और इसलिए प्रकार के एक मॉडल में के अनुमानों के लिए अतिसूक्ष्मता मायने नहीं रखती है :θβ
जी( μ ) =एक्स⊤β+ च( β)
जैसा कि फॉर्म या किसी भी विचरण समारोह के लिए का उसी तरह अनुमान लगाया जाता है , इसलिए फिर से सभी मॉडलों के लिए जहां सशर्त माध्य और विचरण आनुपातिक हैं। βθ μयह अनपेक्षित आकार के पॉइज़न / क्वासिपोइसन मॉडल की तरह है।
यदि आप इसे अंकित मूल्य पर नहीं लेना चाहते हैं और गणित से बचते हैं glmnet
, तो आप इस तथ्य में अनुभवजन्य समर्थन पा सकते हैं कि , यदि आप नियमितीकरण पैरामीटर को 0 की ओर सेट करते हैं (और इस तरह ) तो आप समाप्त हो जाते हैं बहुत ज्यादा जहां पॉइसन और क्सिपोइसन मॉडल मॉडल भूमि (नीचे का स्तंभ देखें जहां लैम्ब्डा 0.005 है)।च( β) = 0
> library(glmnet)
> y <- quine[,5]
> x <- model.matrix(~Age+Sex+Eth+Lrn,quine)
> modl <- glmnet(y=y,x=x, lambda=c(0.05,0.02,0.01,0.005), family="poisson")
> coefficients(modl)
8 x 4 sparse Matrix of class "dgCMatrix"
s0 s1 s2 s3
(Intercept) 2.7320435 2.7221245 2.7188884 2.7172098
(Intercept) . . . .
AgeF1 -0.3325689 -0.3335226 -0.3339580 -0.3340520
AgeF2 0.2496120 0.2544253 0.2559408 0.2567880
AgeF3 0.4079635 0.4197509 0.4236024 0.4255759
SexM 0.1530040 0.1581563 0.1598595 0.1607162
EthN -0.5275619 -0.5311830 -0.5323936 -0.5329969
LrnSL 0.3336885 0.3428815 0.3459650 0.3474745
तो ओडी दंडित प्रतिगमन मॉडल का क्या करता है? जैसा कि आप जानते हैं, दंडित मॉडल के लिए मानक त्रुटियों की गणना करने के उचित तरीके के बारे में अभी भी कुछ बहस है (उदाहरण के लिए, यहां देखें ) और glmnet
किसी भी तरह से आउटपुट नहीं कर रहा है, शायद इस कारण से। यह बहुत अच्छी तरह से हो सकता है कि OD मॉडल के निष्कासन भाग को प्रभावित करेगा, जैसा कि वह गैर-दंडित मामले में करता है, लेकिन जब तक इस मामले में निष्कर्ष के बारे में कुछ सहमति नहीं बन जाती, हमें पता नहीं चलेगा।
एक तरफ के रूप में, कोई यह सब गड़बड़ पीछे छोड़ सकता है अगर कोई बायेसियन दृष्टिकोण अपनाने के लिए तैयार है जहां दंडित मॉडल एक विशिष्ट पूर्व के साथ सिर्फ मानक मॉडल हैं।
poisson
औरquasipoisson
प्रतिगमन गुणांक का उसी तरह से अनुमान लगाते हैं और वे जो भिन्न करते हैं वह मानक त्रुटियों और इस प्रकार महत्व का अनुमान लगाता है। हालाँकि, लैस्सो विधि के लिए, मानक त्रुटियों की गणना कैसे की जानी चाहिए, यह अभी आम सहमति तक नहीं है, और इसलिए इसका वर्तमान उपयोग ज्यादातर अनुमान के बजाय परिवर्तनशील चयन में निहित है। इस तरह, यह कोई फर्क नहीं पड़ता कि हमglmnet
पॉइज़न या क्वासिपोइसन के साथ उपयोग करते हैं, लेकिन यह क्या करता है कि क्रॉस-वैलिडेटेड त्रुटि को कम किया जाना चाहिए।