Glmnet ओवरडिप्रेशन को कैसे हैंडल करता है?


9

मेरे पास एक सवाल है कि कैसे गणना डेटा पर पाठ को मॉडल किया जाए, विशेष रूप से मैं lassoसुविधाओं को कम करने के लिए तकनीक का उपयोग कैसे कर सकता हूं ।

मान लें कि मेरे पास एन ऑनलाइन लेख हैं और प्रत्येक लेख के लिए पृष्ठदृश्यों की गिनती है। मैंने प्रत्येक लेख के लिए 1-ग्राम और 2-ग्राम निकाले हैं और मैं 1,2-ग्राम पर एक प्रतिगमन चलाना चाहता था। चूंकि विशेषताएं (1,2-ग्राम) टिप्पणियों की संख्या से अधिक हैं, इसलिए सुविधाओं की संख्या को कम करने के लिए लासो एक अच्छा तरीका होगा। इसके अलावा, मैंने पाया है glmnetकि लासो विश्लेषण चलाने के लिए वास्तव में आसान है।

हालांकि, पृष्ठदृश्य की गणना संख्या (विचरण> मतलब) overdispersed, लेकिन कर रहे हैं glmnetनहीं की पेशकश करता है quasipoisson(स्पष्ट) या negative binomialलेकिन poissonगिनती डेटा के लिए। समाधान के बारे में मैंने सोचा है कि log transformगणना डेटा (सामाजिक वैज्ञानिकों के बीच एक आमतौर पर इस्तेमाल किया जाने वाला तरीका) है और प्रतिक्रिया चर को लगभग एक सामान्य वितरण का पालन करें। इस प्रकार, मैं संभवतः गाऊसी परिवार के साथ डेटा का उपयोग कर सकता हूं glmnet

तो मेरा सवाल यह है कि क्या ऐसा करना उचित है? या, क्या मैं glmnetकेस glmnetहैंडल के लिए सिर्फ पॉइज़न का उपयोग करूंगा quasipoisson? या, क्या अन्य आर पैकेज इस स्थिति को संभालते हैं?

आपका बहुत बहुत धन्यवाद!

जवाबों:


14

संक्षिप्त जवाब

अतिविशिष्टता कोई फर्क नहीं पड़ता जब एक अर्ध / कविता मॉडल में सशर्त मतलब के लिए प्रतिगमन गुणांक के एक वेक्टर का अनुमान लगाते हैं! आप ठीक हो जाएंगे यदि आप यहां अतिविशिष्टता के बारे में भूल जाते हैं, तो पोइसन परिवार के साथ ग्लमनेट का उपयोग करें और केवल इस बात पर ध्यान दें कि क्या आपकी क्रॉस-वैलिडेटेड भविष्यवाणी की त्रुटि कम है।

योग्यता नीचे दी गई है।


Poisson, Quasi-Poisson और आकलन कार्य:

मैं ऊपर कहता हूं क्योंकि एक पॉइसन या अर्ध-पॉइसन मॉडल में ओवरडिप्रिडेशन (OD) फैलाव (या विचरण या पैमाने या विषमता या प्रसार या जिसे आप इसे कॉल करना चाहते हैं) के साथ कुछ भी करने के लिए प्रभावित करता है और इस तरह मानक पर इसका प्रभाव पड़ता है। त्रुटियों और विश्वास अंतराल लेकिन के सशर्त मतलब के लिए अनुमान छोड़ देता हैy (बुलाया μ) अछूता। यह विशेष रूप से माध्य के रैखिक डिकम्पोजिशन पर लागू होता है, जैसेएक्सβ

यह इस तथ्य से आता है कि सशर्त साधनों के गुणांक के लिए समीकरण समीकरण व्यावहारिक रूप से दोनों पॉइज़न और क्वासी-पॉइसन मॉडल के लिए समान हैं। क्वासी-पोइसन माध्य और एक अतिरिक्त पैरामीटर के संदर्भ में विचरण समारोह को निर्दिष्ट करता है (कहते हैंθ) जैसा वीआर(y)=θμ(Poisson = 1 के लिए) के साथ, लेकिन अनुमान लगाने वाले समीकरण का अनुकूलन करते समय प्रासंगिक नहीं होता है। इस प्रकार सशर्त माध्य और विचरण आनुपातिक होने पर अनुमान लगाने में कोई भूमिका नहीं निभाता है । इसलिए बिंदु अनुमान अर्ध-और पॉसन मॉडल के लिए समान हैं!θθθββ^

मुझे एक उदाहरण के साथ स्पष्ट करें (ध्यान दें कि पूरे कोड और आउटपुट को देखने के लिए किसी को स्क्रॉल करने की आवश्यकता है):

> library(MASS)
> data(quine) 
> modp <- glm(Days~Age+Sex+Eth+Lrn, data=quine, family="poisson")
> modqp <- glm(Days~Age+Sex+Eth+Lrn, data=quine, family="quasipoisson")
> summary(modp)

Call:
glm(formula = Days ~ Age + Sex + Eth + Lrn, family = "poisson", 
    data = quine)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-6.808  -3.065  -1.119   1.819   9.909  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  2.71538    0.06468  41.980  < 2e-16 ***
AgeF1       -0.33390    0.07009  -4.764 1.90e-06 ***
AgeF2        0.25783    0.06242   4.131 3.62e-05 ***
AgeF3        0.42769    0.06769   6.319 2.64e-10 ***
SexM         0.16160    0.04253   3.799 0.000145 ***
EthN        -0.53360    0.04188 -12.740  < 2e-16 ***
LrnSL        0.34894    0.05204   6.705 2.02e-11 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 2073.5  on 145  degrees of freedom
Residual deviance: 1696.7  on 139  degrees of freedom
AIC: 2299.2

Number of Fisher Scoring iterations: 5

> summary(modqp)

Call:
glm(formula = Days ~ Age + Sex + Eth + Lrn, family = "quasipoisson", 
    data = quine)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-6.808  -3.065  -1.119   1.819   9.909  

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.7154     0.2347  11.569  < 2e-16 ***
AgeF1        -0.3339     0.2543  -1.313 0.191413    
AgeF2         0.2578     0.2265   1.138 0.256938    
AgeF3         0.4277     0.2456   1.741 0.083831 .  
SexM          0.1616     0.1543   1.047 0.296914    
EthN         -0.5336     0.1520  -3.511 0.000602 ***
LrnSL         0.3489     0.1888   1.848 0.066760 .  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasipoisson family taken to be 13.16691)

    Null deviance: 2073.5  on 145  degrees of freedom
Residual deviance: 1696.7  on 139  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 5

जैसा कि आप देख सकते हैं, हालांकि हमारे पास इस डेटा सेट (द्वारा deviance(modp)/modp$df.residual) में 12.21 के मजबूत अतिसूक्ष्मता है , प्रतिगमन गुणांक (बिंदु अनुमान) बिल्कुल भी नहीं बदलते हैं। लेकिन ध्यान दें कि मानक त्रुटियां कैसे बदलती हैं।

दंडित पॉइसन मॉडल में अतिविशिष्टता के प्रभाव का प्रश्न

दंडित मॉडल ज्यादातर भविष्यवाणी और चर चयन के लिए उपयोग किए जाते हैं और अनुमान के लिए नहीं (अभी तक)। तो जो लोग इन मॉडलों का उपयोग करते हैं, वे सशर्त साधनों के लिए प्रतिगमन मापदंडों में रुचि रखते हैं, बस शून्य की ओर सिकुड़ते हैं। यदि दंड समान है, तो दंडित (अर्ध-) संभावना से प्राप्त सशर्त साधनों के लिए अनुमानित समीकरण भी _ पर निर्भर नहीं करते हैं और इसलिए प्रकार के एक मॉडल में के अनुमानों के लिए अतिसूक्ष्मता मायने नहीं रखती है :θβ

जी(μ)=एक्सβ+(β)

जैसा कि फॉर्म या किसी भी विचरण समारोह के लिए का उसी तरह अनुमान लगाया जाता है , इसलिए फिर से सभी मॉडलों के लिए जहां सशर्त माध्य और विचरण आनुपातिक हैं। βθμयह अनपेक्षित आकार के पॉइज़न / क्वासिपोइसन मॉडल की तरह है।

यदि आप इसे अंकित मूल्य पर नहीं लेना चाहते हैं और गणित से बचते हैं glmnet, तो आप इस तथ्य में अनुभवजन्य समर्थन पा सकते हैं कि , यदि आप नियमितीकरण पैरामीटर को 0 की ओर सेट करते हैं (और इस तरह ) तो आप समाप्त हो जाते हैं बहुत ज्यादा जहां पॉइसन और क्सिपोइसन मॉडल मॉडल भूमि (नीचे का स्तंभ देखें जहां लैम्ब्डा 0.005 है)।(β)=0

> library(glmnet)
> y <- quine[,5]
> x <- model.matrix(~Age+Sex+Eth+Lrn,quine)
> modl <- glmnet(y=y,x=x, lambda=c(0.05,0.02,0.01,0.005), family="poisson")
> coefficients(modl)
8 x 4 sparse Matrix of class "dgCMatrix"
                    s0         s1         s2         s3
(Intercept)  2.7320435  2.7221245  2.7188884  2.7172098
(Intercept)  .          .          .          .        
AgeF1       -0.3325689 -0.3335226 -0.3339580 -0.3340520
AgeF2        0.2496120  0.2544253  0.2559408  0.2567880
AgeF3        0.4079635  0.4197509  0.4236024  0.4255759
SexM         0.1530040  0.1581563  0.1598595  0.1607162
EthN        -0.5275619 -0.5311830 -0.5323936 -0.5329969
LrnSL        0.3336885  0.3428815  0.3459650  0.3474745

तो ओडी दंडित प्रतिगमन मॉडल का क्या करता है? जैसा कि आप जानते हैं, दंडित मॉडल के लिए मानक त्रुटियों की गणना करने के उचित तरीके के बारे में अभी भी कुछ बहस है (उदाहरण के लिए, यहां देखें ) और glmnetकिसी भी तरह से आउटपुट नहीं कर रहा है, शायद इस कारण से। यह बहुत अच्छी तरह से हो सकता है कि OD मॉडल के निष्कासन भाग को प्रभावित करेगा, जैसा कि वह गैर-दंडित मामले में करता है, लेकिन जब तक इस मामले में निष्कर्ष के बारे में कुछ सहमति नहीं बन जाती, हमें पता नहीं चलेगा।

एक तरफ के रूप में, कोई यह सब गड़बड़ पीछे छोड़ सकता है अगर कोई बायेसियन दृष्टिकोण अपनाने के लिए तैयार है जहां दंडित मॉडल एक विशिष्ट पूर्व के साथ सिर्फ मानक मॉडल हैं।


@Mono, आपके बहुत विस्तृत विवरण के लिए धन्यवाद! यहाँ मेरी समझ है, और कृपया मुझे सही करें अगर मैं गलत हूँ: poissonऔर quasipoissonप्रतिगमन गुणांक का उसी तरह से अनुमान लगाते हैं और वे जो भिन्न करते हैं वह मानक त्रुटियों और इस प्रकार महत्व का अनुमान लगाता है। हालाँकि, लैस्सो विधि के लिए, मानक त्रुटियों की गणना कैसे की जानी चाहिए, यह अभी आम सहमति तक नहीं है, और इसलिए इसका वर्तमान उपयोग ज्यादातर अनुमान के बजाय परिवर्तनशील चयन में निहित है। इस तरह, यह कोई फर्क नहीं पड़ता कि हम glmnetपॉइज़न या क्वासिपोइसन के साथ उपयोग करते हैं, लेकिन यह क्या करता है कि क्रॉस-वैलिडेटेड त्रुटि को कम किया जाना चाहिए।
सोन्या एस।

@ मेनो, एक और नोट, मैंने summary(modqp)खुद को चलाया और देखा कि यह बिल्कुल समान गुणांक है। मेरा मानना ​​है कि इस मुद्दे पर आपके जवाब से अधिक लोगों को लाभ होगा क्योंकि मुझे कोई भी नहीं मिला था, इसलिए मेरा सुझाव है कि आप एक बेहतर उदाहरण के लिए सारांश (modqp) का आउटपुट जोड़ें। फिर से, बहुत धन्यवाद!
सोन्या एस।

1
@ सोनिया तुम्हारा एक अच्छा सारांश है। कुंजी यह है कि जब सशर्त माध्य के लिए मापदंडों का आकलन करते हैं, तो पॉइसन और क्सीपिसोइसन के लिए आकलन कार्य (स्कोर फ़ंक्शन कहते हैं) समान हैं! इसलिए इन मापदंडों के लिए कोई फर्क नहीं पड़ता कि क्या कोई दंड है या नहीं जब तक कि यह एक ही दंड नहीं है। मैं ऊपर और अधिक स्पष्ट करता हूं। सारांश (मोडक) के बारे में सूचक के लिए भी धन्यवाद, लेकिन यह पहले से ही है, यह सिर्फ एक सामान्य स्क्रीन पर "बॉक्सिंग" हो जाता है, इसलिए किसी को नीचे स्क्रॉल करना होगा।
मोमो

मुझे अब भी आश्चर्य होता है कि यदि संभव हो कि पॉइज़न में कम वैरिएबल सिकुड़ जाएँ तो यदि कोई क्वैसी-पॉइसन विनिर्देश है, जो कि अधिक सही है, और संभवतः पॉइसन मॉडल की तुलना में बेहतर भविष्य कहनेवाला सटीकता की ओर ले जाएगा क्योंकि इसका नमूना मॉडल अधिक सही है।
ब्राश इक्विलिब्रियम

उस नोट पर, यह भी हो सकता है कि पोसेन में अधिक चर सिकुड़ जाते हैं, जितना कि यूएनडीईआर-फैलाव के मामलों में सिकुड़ जाना चाहिए (जैसे कि जब आप 0 से 1 डेटा के सापेक्ष जोखिम अनुपात का अनुमान लगाने के लिए एक मजबूत पॉइसन मॉडल का उपयोग कर रहे हैं)।
ब्राश इक्विलिब्रियम
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.