क्या शून्य (Tweedie GLM, शून्य-फुलाया GLM, आदि) पर क्लंपिंग के साथ गैर-नकारात्मक डेटा के लिए एक मॉडल सटीक शून्य की भविष्यवाणी कर सकता है?


15

एक Tweedie वितरण शून्य पर एक बिंदु द्रव्यमान के साथ तिरछा डेटा मॉडल कर सकता है जब पैरामीटर (माध्य-विचरण संबंध में घातांक) 1 और 2 के बीच होता है।p

इसी तरह एक शून्य-फुलाया (चाहे अन्यथा निरंतर या असतत) मॉडल में बड़ी संख्या में शून्य हो सकते हैं।

मुझे यह समझने में परेशानी हो रही है कि ऐसा क्यों है कि जब मैं भविष्यवाणी करता हूं या इन प्रकार के मॉडलों के साथ फिट किए गए मूल्यों की गणना करता हूं, तो सभी अनुमानित मूल्य गैर-शून्य हैं।

क्या ये मॉडल वास्तव में सटीक शून्य की भविष्यवाणी कर सकते हैं?

उदाहरण के लिए

library(tweedie)
library(statmod)
# generate data
y <- rtweedie( 100, xi=1.3, mu=1, phi=1)  # xi=p
x <- y+rnorm( length(y), 0, 0.2)
# estimate p
out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9))
# fit glm
fit <- glm( y ~ x, family=tweedie(var.power=out$p.max, link.power=0))
# predict
pred <- predict.glm(fit, newdata=data.frame(x=x), type="response")

predअब कोई शून्य नहीं है। मुझे लगा कि ट्वीडि वितरण जैसे मॉडलों की उपयोगिता इसकी सटीक शून्य और निरंतर भाग की भविष्यवाणी करने की क्षमता से आती है।

मुझे पता है कि मेरे उदाहरण में चर xबहुत भविष्य कहनेवाला नहीं है।


इसके अलावा सेमीपैरेट्रिक ऑर्डिनल रिस्पांस मॉडल पर विचार करें, जो लिए मनमाना वितरण की अनुमति देता है । Y
फ्रैंक हार्ले

जवाबों:


16

ध्यान दें कि GLM में अनुमानित मूल्य एक माध्य है।

गैर-नकारात्मक मूल्यों पर किसी भी वितरण के लिए , 0 के माध्य की भविष्यवाणी करने के लिए , इसके वितरण को पूरी तरह से 0 पर स्पाइक बनाना होगा।

हालाँकि, एक लॉग-लिंक के साथ, आप कभी भी बिल्कुल शून्य के लिए फिट नहीं होंगे (क्योंकि इसके लिए - go जाने की आवश्यकता होगी )।η-

तो आपकी समस्या Tweedie के साथ कोई समस्या नहीं है, लेकिन कहीं अधिक सामान्य है; उदाहरण के लिए आपके पास Poisson (शून्य-फुलाया या साधारण Poisson GLM) के साथ ठीक यही समस्या है।

मुझे लगा कि ट्वीडे वितरण की उपयोगिता इसकी सटीक शून्य और निरंतर भाग की भविष्यवाणी करने की क्षमता से आती है।

चूंकि सटीक शून्य की भविष्यवाणी करना लॉग-लिंक के साथ गैर-नकारात्मक मूल्यों पर किसी भी वितरण के लिए नहीं हो रहा है, इस पर आपकी सोच को गलत होना चाहिए।

इसके आकर्षण में से एक यह है कि यह डेटा में सटीक शून्य मॉडल कर सकता है , न कि इसका मतलब भविष्यवाणियां 0. होगी। [निश्चित रूप से नॉनज़रो माध्य के साथ एक सज्जित वितरण में अभी भी शून्य होने की संभावना हो सकती है, भले ही इसका मतलब 0 से अधिक हो। एक उपयुक्त पूर्वानुमान अंतराल में उदाहरण के लिए 0 शामिल हो सकते हैं।]

यह बिल्कुल भी मायने नहीं रखता है कि फिट किए गए वितरण में शून्य का कोई पर्याप्त अनुपात शामिल है - जो फिट किए गए माध्य को शून्य नहीं बनाता है।

ध्यान दें कि यदि आप किसी पहचान लिंक को कहने के लिए अपने लिंक फ़ंक्शन को बदलते हैं, तो यह वास्तव में आपकी समस्या को हल नहीं करता है - एक गैर-नकारात्मक यादृच्छिक चर का मतलब जो सभी-शून्य सकारात्मक नहीं है।


1
आपके विवरण के लिये धन्यवाद। मैंने एक ग्वेमा ग्लम के लिए एक ट्वीडेई ग्लम की तुलना की और बीट लगभग एक ही है, चाहे डेटा में कितने शून्य हों (मैं गामा ग्लम के लिए शून्य को बहुत कम मूल्य में बदलता हूं)। और एक साथ शून्य और निरंतर भाग की भविष्यवाणी करने का प्रस्तावित तरीका क्या है।
spore234

2
@ spore234 आप अपने स्वयं के गामा-बाधा मॉडल को रोल कर सकते हैं, जिसमें 0/1 और गैर-शून्य डेटा के लिए फिट किए गए एक गामा मॉडल की भविष्यवाणी करने के लिए एक द्विपद बाधा होगी। यहां एक ब्लॉग पोस्ट का लिंक दिया गया है जो इस मॉडल पर चर्चा करता है और आर। में एक हाथ से कैसे फिट किया जाता है? एक तरफ, अगर कुछ निरंतर है, तो आप कैसे जानते हैं कि यह बिल्कुल शून्य है? क्या आपका माप उपकरण इस तरह के महीन दाने के माप में सक्षम है?
मोनिका को बहाल करें - जी। सिम्पसन

2
@spore, आप इस बारे में अधिक स्पष्ट होने वाले हैं कि आप वास्तव में "शून्य की भविष्यवाणी" से क्या मतलब रखते हैं; मेरा जवाब पहले से ही स्थापित करता है कि ट्वीडेई को बदलने के लिए उपयोग किए जाने वाले कोई अन्य वितरण मॉडल शून्य का एक मतलब भविष्यवाणी क्यों नहीं करेगा (एनबी शून्य-फुलाया और बाधा मॉडल के साथ उनकी अर्थ भविष्यवाणियों के साथ भी यही मुद्दा है)। एक मतलब भविष्यवाणी को देखते हुए कि आप "पूर्वानुमान" से क्या मतलब है जब आपने जीएलएम का उपयोग किया था, तो अब आप इसका क्या मतलब है? यदि आप इसे कुछ मतलब के लिए बदलते हैं जहां 0-फुलाया या बाधा मॉडल समझ में आता है, तो एक Tweedie अच्छी तरह से उसी स्थिति को संतुष्ट कर सकता है।
Glen_b -Reinstate मोनिका सेप

1
यह वास्तव में आप "भविष्यवाणी" से क्या मतलब है पर निर्भर करता है (जब से आप का मतलब "पूर्वानुमान का मतलब नहीं है" आपको यह कहने की ज़रूरत है कि आप क्या चाहते हैं - क्या आप शून्य की संभावना का पूर्वानुमान करना चाहते हैं ? क्या आप चाहते हैं? मंझला पूर्वानुमान? कुछ और?), और किस तरह की चीजों को आप "बेहतर" मानते हैं, इसलिए कुछ तुलना की जा सकती है।
Glen_b -Reinstate Monica

1
@ spore234 समस्या, फिर भी, क्या आप "भविष्यवाणी" शब्द का उपयोग कर रहे हैं, लेकिन परिभाषित करने में विफल रहें कि आप "भविष्यवाणी" से क्या मतलब है (मैं पूछ रहा हूँ!)। आप इस स्थिति में शब्द की दोनों सबसे स्पष्ट व्याख्याओं से इंकार करते दिखाई देते हैं, इसलिए आपको यह कहने की आवश्यकता है कि आपका क्या मतलब है। जब आप कहते हैं "भविष्यवाणी करें कि इस व्यक्ति की लागत कितनी होगी" वास्तव में आपका क्या मतलब है? ध्यान दें कि आप प्रत्येक व्यक्ति के लिए सटीक लागत नहीं पा सकते हैं ... तो इस "भविष्यवाणी" में क्या गुण होने चाहिए?
Glen_b -Reinstate Monica

10

शून्य के अनुपात की भविष्यवाणी करना

मैं स्टेटमॉड पैकेज का लेखक हूं और ट्वीडेई पैकेज का संयुक्त लेखक हूं। आपके उदाहरण में सब कुछ सही ढंग से काम कर रहा है। कोड किसी भी शून्य के लिए सही तरीके से लेखांकन कर रहा है जो डेटा में हो सकता है।

जैसा कि ग्लेन_ बी और टिम ने समझाया है, जब तक कि शून्य की संभावना 100% न हो जाए, तब तक अनुमानित अर्थ मूल्य बिल्कुल शून्य नहीं होगा। हालांकि ब्याज की क्या हो सकती है, जो शून्य की अनुमानित अनुपात है, और यह आसानी से मॉडल से निकाला जा सकता है जैसा कि मैं नीचे दिखा रहा हूं।

यहाँ एक और अधिक समझदार काम करने का उदाहरण है। पहले कुछ डेटा का अनुकरण करें:

> library(statmod)
> library(tweedie)
> x <- 1:100
> mutrue <- exp(-1+x/25)
> summary(mutrue)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.3829  1.0306  2.7737  5.0287  7.4644 20.0855 
> y <- rtweedie(100, mu=mutrue, phi=1, power=1.3)
> summary(y)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.8482  2.9249  4.7164  6.1522 24.3897 
> sum(y==0)
[1] 12

डेटा में 12 शून्य होते हैं।

अब एक Tweedie glm फिट करें:

> fit <- glm(y ~ x, family=tweedie(var.power=1.3, link.power=0))
> summary(fit)

Call:
glm(formula = y ~ x, family = tweedie(var.power = 1.3, link.power = 0))

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-2.71253  -0.94685  -0.07556   0.69089   1.84013  

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.816784   0.168764   -4.84 4.84e-06 ***
x            0.036748   0.002275   16.15  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for Tweedie family taken to be 0.8578628)

    Null deviance: 363.26  on 99  degrees of freedom
Residual deviance: 103.70  on 98  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 4

एक्सφ

एक्स

> Phi <- 0.85786
> Mu <- fitted(fit)
> Power <- 1.3
> Prob.Zero <- exp(-Mu^(2-Power) / Phi / (2-Power))
> Prob.Zero[1:5]
        1         2         3         4         5 
0.3811336 0.3716732 0.3622103 0.3527512 0.3433024 
> Prob.Zero[96:100]
          96           97           98           99          100 
1.498569e-05 1.121936e-05 8.336499e-06 6.146648e-06 4.496188e-06 

इसलिए शून्य का अनुमानित अनुपात सबसे छोटे औसत मूल्यों पर 38.1% से सबसे कम औसत मान 4.5e-6 तक भिन्न होता है।

दून एंड स्मिथ (2001) ट्वीडेई फैमिली डेंसिटीज: इवैल्यूएशन के तरीके या डन एंड स्मिथ (2005) ट्वीडे एक्सपायरीवेशन फैलाव मॉडल डेंसिटीज के सीरीज मूल्यांकन में सटीक शून्य की संभावना का सूत्र पाया जा सकता है ।


धन्यवाद, उपयोगी! सटीक शून्य की इन संभावनाओं के लिए विश्वास अंतराल की गणना करने के बारे में कोई सुझाव? यह बिल्कुल समझ में आता है? मैं 2005 के पेपर से "95% संभावना क्षेत्र" को परिभाषित करने के तरीके से भी हैरान हूं, शायद कुछ ज्ञात है जो मुझे नहीं मिल रहा है। मैं एक संदर्भ की बहुत सराहना
करूंगा

8

यह उत्तर एक और सूत्र से विलय कर दिया गया था, जो भविष्यवाणियों के बारे में शून्य-फुलाया हुआ प्रतिगमन मॉडल के बारे में पूछ रहा था, लेकिन यह ट्वीडेई जीएलए मॉडल पर भी लागू होता है।

zeroinfl(y)=πमैं{0}(y)+(1-π)(y)

मैंzeroinfl(y)

μमैं=π0+(1-π)जी-1(एक्समैं'β)

जी-1

Yएक्सYएक्सYएक्स(Y|एक्स)

उदाहरण


टिम, यह वास्तव में एक शानदार जवाब है और मुझे क्लोज-एंड-मर्ज के समय के लिए खेद है। यदि आप इस प्रश्न के बारे में कुछ भी चाहते हैं कि इसे और अधिक विहित बनाने के लिए या बेहतर रूप से फिट करने के लिए संशोधित किया गया है (कुछ का जवाब दें जो आपने शायद उत्तर दिया है), कृपया आगे बढ़ें, या मैं आपके लिए इसे करने के लिए खुश हूं।
Glen_b -Reinstate मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.