मॉडलिंग के दावे में एक बीमा वातावरण में डेटा की गणना, मैंने पॉइसन के साथ शुरू किया, लेकिन फिर अतिविशिष्टता पर ध्यान दिया। एक अर्ध-पॉइसन ने मूल पॉइसन की तुलना में अधिक माध्य-विचरण संबंध को बेहतर ढंग से चित्रित किया, लेकिन मैंने देखा कि पॉइज़न और क्वैसी-पॉइज़न दोनों मॉडल में गुणांक समान थे।
यदि यह कोई त्रुटि नहीं है, तो ऐसा क्यों हो रहा है? पॉइसन के ऊपर क्वैसी-पॉइज़न का उपयोग करने का क्या लाभ है?
ध्यान देने योग्य बातें:
- अंतर्निहित नुकसान एक अतिरिक्त आधार पर हैं, जो (मेरा मानना है) ने ट्वीडी को काम करने से रोक दिया - लेकिन यह पहला वितरण था जिसे मैंने कोशिश की थी। मैंने NB, ZIP, ZINB और हर्डल मॉडल की भी जांच की, लेकिन फिर भी पाया कि Quasi-Poisson ने सबसे अच्छा फिट प्रदान किया।
- मैंने एईआर पैकेज में फैलाव के माध्यम से अतिप्रवाह के लिए परीक्षण किया। मेरा फैलाव पैरामीटर लगभग 8.4 था, 10 ^ -16 परिमाण पर पी-मान के साथ।
- मैं परिवार के साथ glm () का उपयोग कर रहा हूँ = पॉज़िसन या क्वासिपोइसन और कोड के लिए लॉग लिंक।
- पॉइसन कोड चलाते समय, मैं "इन डैपिस (y, mu, log = TRUE) की चेतावनी के साथ आता हूं: गैर-पूर्णांक x = ..."।
बेन के मार्गदर्शन में सहायक एसई थ्रेड्स:
एक Tweedie वितरण एक बेहतर विचार नहीं होगा?
—
डफाइमो
गेट-गो से ट्वीडी की कोशिश की, लेकिन हमारा नुकसान डेटा ग्राउंड-अप नहीं है, बल्कि एक अतिरिक्त आधार पर है। गिनती फैलाव को संबोधित करने के लिए नकारात्मक द्विपद, जिप और बाधा मॉडल का भी प्रयास किया।
—
फ्रैंक एच।
क्या आप थोड़ा और समझा सकते हैं कि आपके डेटा में गैर-पूर्णांक मान कहाँ से आते हैं ??
—
बेन बोल्कर
आपको अनुपातों की गणना करके आवृत्तियों / दरों को मॉडल नहीं करना चाहिए
—
बेन बोल्कर
counts/exposure
। बल्कि, आपको offset(log(exposure))
अपने मॉडलों में एक ऑफसेट ( ) शब्द जोड़ना चाहिए ।
यह व्यावहारिक है, हालांकि सबसे महत्वपूर्ण है जब पोइसन (अर्ध-पॉइसन नहीं) मॉडलिंग करते हैं। मुझे एक अच्छे संदर्भ की जानकारी नहीं है; यदि आपको यहाँ पर कोई प्रासंगिक उत्तर नहीं दिया गया है तो CrossValidated, यह एक अच्छा अनुवर्ती प्रश्न बना देगा।
—
बेन बोल्कर