y
एक सामान्य भविष्यवक्ता से डेटा की भविष्यवाणी करने वाले बाधा मॉडल पर विचार करें x
:
set.seed(1839)
# simulate poisson with many zeros
x <- rnorm(100)
e <- rnorm(100)
y <- rpois(100, exp(-1.5 + x + e))
# how many zeroes?
table(y == 0)
FALSE TRUE
31 69
इस मामले में, मेरे पास ६ ९ शून्य और ३१ धनात्मक गणनाओं वाला डेटा है। डेटा-जेनरेशन प्रक्रिया की परिभाषा के अनुसार, इस समय के लिए कोई बात नहीं, एक पॉइसन प्रक्रिया, क्योंकि मेरा सवाल बाधा मॉडल के बारे में है।
मान लीजिए कि मैं एक बाधा मॉडल द्वारा इन अतिरिक्त शून्य को संभालना चाहता हूं। उनके बारे में मेरे पढ़ने से, ऐसा लग रहा था कि बाधा मॉडल वास्तविक प्रति मॉडल नहीं हैं - वे क्रमिक रूप से दो अलग-अलग विश्लेषण कर रहे हैं। सबसे पहले, एक लॉजिस्टिक रिग्रेशन यह भविष्यवाणी करता है कि मूल्य सकारात्मक बनाम शून्य है या नहीं। दूसरा, केवल शून्य-शून्य मामलों सहित एक शून्य-छंटनी वाली पोइसन प्रतिगमन । यह दूसरा कदम मेरे लिए गलत लगा, क्योंकि यह (ए) पूरी तरह से अच्छा डेटा फेंक रहा है, जो (बी) डेटा मुद्दों को जन्म दे सकता है क्योंकि बहुत सारे डेटा शून्य हैं, और (सी) मूल रूप से "मॉडल" और स्वयं के नहीं हैं , लेकिन सिर्फ क्रमिक रूप से दो अलग-अलग मॉडल चल रहे हैं।
इसलिए मैंने एक "बाधा मॉडल" की कोशिश की, बस लॉजिस्टिक और शून्य-पृथक पॉइसन प्रतिगमन को अलग-अलग चलाने के लिए। उन्होंने मुझे समान उत्तर दिए (मैं संक्षिप्तता के लिए उत्पादन को संक्षिप्त कर रहा हूं):
> # hurdle output
> summary(pscl::hurdle(y ~ x))
Count model coefficients (truncated poisson with log link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.5182 0.3597 -1.441 0.1497
x 0.7180 0.2834 2.533 0.0113 *
Zero hurdle model coefficients (binomial with logit link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.7772 0.2400 -3.238 0.001204 **
x 1.1173 0.2945 3.794 0.000148 ***
> # separate models output
> summary(VGAM::vglm(y[y > 0] ~ x[y > 0], family = pospoisson()))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.5182 0.3597 -1.441 0.1497
x[y > 0] 0.7180 0.2834 2.533 0.0113 *
> summary(glm(I(y == 0) ~ x, family = binomial))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.7772 0.2400 3.238 0.001204 **
x -1.1173 0.2945 -3.794 0.000148 ***
---
यह मेरे लिए बंद लगता है क्योंकि मॉडल के कई अलग-अलग गणितीय निरूपणों में यह संभावना शामिल है कि एक अवलोकन सकारात्मक गणना के मामलों के आकलन में गैर-शून्य है, लेकिन जिन मॉडलों को मैंने ऊपर किया था वे एक दूसरे को पूरी तरह से अनदेखा करते हैं। उदाहरण के लिए, यह अध्याय 5, स्मिथसन एंड मर्कल के सामान्यीकृत रैखिक मॉडल के श्रेणीबद्ध और सतत लिमिटेड पर निर्भर चर के लिए पृष्ठ 128 से है :
... दूसरा, संभावना है कि किसी भी मान (शून्य और धनात्मक पूर्णांक) को बराबर करता है। यह समीकरण (5.33) में गारंटी नहीं है। इस समस्या से निपटने के लिए, हम बर्नौली सफलता प्रायिकता द्वारा पोइसन संभावना को गुणा करते हैं । इन मुद्दों को हमें उपरोक्त बाधा मॉडल को जहां , ,π पी ( Y = y | एक्स , जेड , β , γ ) = { 1 - π के लिए y = 0 π × exp ( - λ ) λ y / y !
मॉडल के लिए हैं, लॉजिस्टिक रिग्रेशन मॉडल के लिए हैं, और और संबंधित रिग्रेशन गुणांक हैं ... ।
दो मॉडल ऐसा करने से पूरी तरह से एक दूसरे के-जो क्या बाधा मॉडल हो रहा है से अलग कर-मुझे नजर नहीं आता कि कैसे करते हैं सकारात्मक गिनती के मामलों की भविष्यवाणी में शामिल किया गया है। लेकिन इस आधार पर कि मैं कैसे दो अलग-अलग मॉडल चलाकर फ़ंक्शन को दोहराने में सक्षम था , मैं नहीं देखता कि कैसे छंटे हुए पोइसन में एक भूमिका निभाता है प्रतिगमन।hurdle
क्या मैं बाधा मॉडल को सही ढंग से समझ रहा हूं? उन्हें लगता है कि दो केवल दो अनुक्रमिक मॉडल चल रहे हैं: पहला, एक लॉजिस्टिक; दूसरा, एक पॉइसन, पूरी तरह से उन मामलों को अनदेखा करता है जहां । मैं सराहना करता हूं कि अगर कोई व्यक्ति मेरी व्यवसाय के साथ मेरे भ्रम को साफ कर सकता है ।
अगर मैं सही हूं कि जो बाधा मॉडल हैं, वह "बाधा" मॉडल की परिभाषा क्या है, अधिक आम तौर पर? दो अलग-अलग परिदृश्यों की कल्पना करें:
कल्पना करें कि प्रतिस्पर्धा के स्कोर (1 - (वोट का विजेता अनुपात - मत का अनुपात)) को देखते हुए चुनावी दौड़ की प्रतिस्पर्धात्मकता की मॉडलिंग करें। यह [0, 1) है, क्योंकि कोई संबंध नहीं हैं (जैसे, 1)। एक बाधा मॉडल यहां समझ में आता है, क्योंकि एक प्रक्रिया है (ए) चुनाव निर्विरोध था? और (बी) यदि यह नहीं था, तो प्रतिस्पर्धा की भविष्यवाणी क्या थी? इसलिए हम पहले 0 बनाम (0, 1) का विश्लेषण करने के लिए एक लॉजिस्टिक रिग्रेशन करते हैं। तब हम (0, 1) मामलों का विश्लेषण करने के लिए बीटा रिग्रेशन करते हैं।
एक सामान्य मनोवैज्ञानिक अध्ययन की कल्पना करें। प्रतिक्रियाएं [1, 7] हैं, पारंपरिक लिक्टर स्केल की तरह, 7. पर एक विशाल छत प्रभाव के साथ, एक ऐसा बाधा मॉडल कर सकता है जो लॉजिस्टिक रिग्रेशन [1, 7) बनाम 7 और फिर सभी मामलों के लिए एक टोबिट रिग्रेशन हो जहां मनाया प्रतिक्रियाओं <7 हैं।
क्या इन दोनों स्थितियों को "बाधा" मॉडल कहना सुरक्षित होगा , भले ही मैं उन्हें दो अनुक्रमिक मॉडल के साथ अनुमान लगाऊं (पहले मामले में बीटा और फिर दूसरे में बीटा, लॉजिस्टिक और फिर टॉबिट)?
pscl::hurdle
, जिसमें लागू किया गया है , लेकिन यह समीकरण 5 में यहां एक जैसा दिखता है: cran.r-project.org/web/packages/pscl/vignettes/countreg.pdf या शायद मैं अभी भी कुछ बुनियादी याद आ रही है जो इसे मेरे लिए क्लिक करेगी?
hurdle()
। हमारे युग्मित / विगनेट में, हम अधिक सामान्य बिल्डिंग ब्लॉक्स पर जोर देने की कोशिश करते हैं, हालांकि।