पॉइज़न बनाम क्वैसी-पॉइज़न मॉडल में अनुमानित गुणांक


12

मॉडलिंग के दावे में एक बीमा वातावरण में डेटा की गणना, मैंने पॉइसन के साथ शुरू किया, लेकिन फिर अतिविशिष्टता पर ध्यान दिया। एक अर्ध-पॉइसन ने मूल पॉइसन की तुलना में अधिक माध्य-विचरण संबंध को बेहतर ढंग से चित्रित किया, लेकिन मैंने देखा कि पॉइज़न और क्वैसी-पॉइज़न दोनों मॉडल में गुणांक समान थे।

यदि यह कोई त्रुटि नहीं है, तो ऐसा क्यों हो रहा है? पॉइसन के ऊपर क्वैसी-पॉइज़न का उपयोग करने का क्या लाभ है?

ध्यान देने योग्य बातें:

  • अंतर्निहित नुकसान एक अतिरिक्त आधार पर हैं, जो (मेरा मानना ​​है) ने ट्वीडी को काम करने से रोक दिया - लेकिन यह पहला वितरण था जिसे मैंने कोशिश की थी। मैंने NB, ZIP, ZINB और हर्डल मॉडल की भी जांच की, लेकिन फिर भी पाया कि Quasi-Poisson ने सबसे अच्छा फिट प्रदान किया।
  • मैंने एईआर पैकेज में फैलाव के माध्यम से अतिप्रवाह के लिए परीक्षण किया। मेरा फैलाव पैरामीटर लगभग 8.4 था, 10 ^ -16 परिमाण पर पी-मान के साथ।
  • मैं परिवार के साथ glm () का उपयोग कर रहा हूँ = पॉज़िसन या क्वासिपोइसन और कोड के लिए लॉग लिंक।
  • पॉइसन कोड चलाते समय, मैं "इन डैपिस (y, mu, log = TRUE) की चेतावनी के साथ आता हूं: गैर-पूर्णांक x = ..."।

बेन के मार्गदर्शन में सहायक एसई थ्रेड्स:

  1. पोइसन रिग्रेशन में ऑफ़सेट्स का बेसिक मैथ
  2. गुणांक पर कार्यालयों का प्रभाव
  3. एक्सपोजर को कोवरिएट बनाम ऑफसेट के रूप में उपयोग करने के बीच अंतर

एक Tweedie वितरण एक बेहतर विचार नहीं होगा?
डफाइमो

गेट-गो से ट्वीडी की कोशिश की, लेकिन हमारा नुकसान डेटा ग्राउंड-अप नहीं है, बल्कि एक अतिरिक्त आधार पर है। गिनती फैलाव को संबोधित करने के लिए नकारात्मक द्विपद, जिप और बाधा मॉडल का भी प्रयास किया।
फ्रैंक एच।

1
क्या आप थोड़ा और समझा सकते हैं कि आपके डेटा में गैर-पूर्णांक मान कहाँ से आते हैं ??
बेन बोल्कर

6
आपको अनुपातों की गणना करके आवृत्तियों / दरों को मॉडल नहीं करना चाहिएcounts/exposure । बल्कि, आपको offset(log(exposure))अपने मॉडलों में एक ऑफसेट ( ) शब्द जोड़ना चाहिए ।
बेन बोल्कर

1
यह व्यावहारिक है, हालांकि सबसे महत्वपूर्ण है जब पोइसन (अर्ध-पॉइसन नहीं) मॉडलिंग करते हैं। मुझे एक अच्छे संदर्भ की जानकारी नहीं है; यदि आपको यहाँ पर कोई प्रासंगिक उत्तर नहीं दिया गया है तो CrossValidated, यह एक अच्छा अनुवर्ती प्रश्न बना देगा।
बेन बोल्कर

जवाबों:


25

χ2p

p

  • जैसा कि आप ऊपर टिप्पणी करते हैं, बहुत सारे अलग-अलग दृष्टिकोण होते हैं ओवरस्पीडवर्जन (ट्वीडेई, विभिन्न नकारात्मक द्विपद पैरामीटर, अर्ध-संभावना, शून्य-मुद्रास्फीति / परिवर्तन)।
  • अतिव्यापी कारक के साथ> 5 (8.4), मैं इस बारे में थोड़ी चिंता करूंगा कि क्या यह किसी तरह के मॉडल से गलत तरीके से फिट किया जा रहा है (आउटलेर, शून्य-मुद्रास्फीति [जो मैं आपको पहले ही कोशिश कर चुका हूं], गैर-अस्तित्व) के बजाय पूरे बोर्ड की विषमता का प्रतिनिधित्व करने की तुलना में। मेरा यह सामान्य दृष्टिकोण कच्चे डेटा और प्रतिगमन निदान की चित्रमय खोज है ...

बहुत मददगार। अब मैं देखता हूं कि आपके द्वारा बताए गए स्केलिंग के कारण, पॉइसन में वेरिएबल्स के स्तर और चर के स्तर, क्यूसी-पॉइसन की तुलना में अधिक सांख्यिकीय रूप से महत्वपूर्ण हैं। मैंने आउटलेर के लिए परीक्षण किया, लेकिन यह एक मुद्दा नहीं पाया। इन मुद्दों को खोजने के लिए कुछ अन्य मुद्दे क्या हो सकते हैं जो अतिविशिष्टता, या इस तरह के दृष्टिकोण के उदाहरण हैं?
फ्रैंक एच।

लिंक (लॉग) पैमाने पर प्रतिक्रियाओं की अधिकतर गैर-रैखिकता; अवशिष्ट-बनाम-फिट किए गए भूखंड और अवशिष्ट-बनाम-भविष्यवक्ता-चर भूखंडों की जाँच करें कि क्या पैटर्न हैं।
बेन बोल्कर

1
+1 अच्छी तरह से रखी गई! मैं वास्तव में आपके पहले पैराग्राफ की स्पष्टता की सराहना करता हूं।
एलेक्सिस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.