अतिउत्पादन के साथ एक पॉइज़न वितरण मॉडलिंग

15

मेरे पास एक डेटा सेट है जिसे मैं एक पॉइसन वितरण का पालन करने की उम्मीद करूंगा, लेकिन यह लगभग 3 गुना अधिक है। वर्तमान में, मैं आर में निम्नलिखित कोड की तरह कुछ का उपयोग करके इस अतिप्रवाह को मॉडलिंग कर रहा हूं।

## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)

नेत्रहीन, यह मेरे अनुभवजन्य डेटा को बहुत अच्छी तरह से फिट करता है। यदि मैं फिट से खुश हूं, तो क्या कोई कारण है कि मुझे कुछ और जटिल करना चाहिए, जैसे कि एक नकारात्मक द्विपद वितरण का उपयोग करना , जैसा कि यहां वर्णित है ? (यदि हां, तो ऐसा करने पर किसी भी संकेत या लिंक की बहुत सराहना की जाएगी)।

ओह, और मुझे पता है कि यह थोड़ा दांतेदार वितरण (तीन से गुणा के कारण) बनाता है, लेकिन यह मेरे आवेदन के लिए मायने नहीं रखना चाहिए।

अद्यतन: किसी और के लिए, जो इस प्रश्न को खोजता है और पाता है, यहां एक नकारात्मक द्विपद वितरण का उपयोग करके एक अति विशिष्ट कविता को मॉडल करने के लिए एक सरल आर फ़ंक्शन है। वांछित माध्य / विचरण अनुपात के लिए d सेट करें:

rpois.od<-function (n, lambda,d=1) {
  if (d==1)
    rpois(n, lambda)
  else
     rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}

(आर मेलिंग सूची के माध्यम से: https://stat.ethz.ch/pipermail/r-help/2002-June/022425.html )

— chrisamiller
स्रोत

11

अतिविशिष्ट पोइज़न के लिए, नकारात्मक द्विपद का उपयोग करें, जो आपको सटीक रूप से फ़ंक्शन के रूप में विचरण को मानकीकृत करने की अनुमति देता है। rnbinom (), आदि में आर।

— साइरस एस
स्रोत

1

अवलोकन-स्तरीय यादृच्छिक प्रभाव के साथ नकारात्मक द्विपद और मिश्रित मॉडल क्यों नहीं? यह कोई लफ्फाजी वाला सवाल नहीं है। यह एक "मुझे समझ में नहीं आता है कि मुझे कौन सा पसंद करना चाहिए।" सवाल। इसके अलावा, क्या होगा यदि मेरे पास दोहराया उपायों की स्थिति है? जब मेरा डेटा निरंतर होता है, तो मैं एक सामान्यीकृत रैखिक मिश्रित मॉडल का उपयोग करूंगा। गामा वितरण अक्सर निरंतर जैविक डेटा के साथ अच्छी तरह से काम करता है, और मिश्रित मॉडल दोहराया उपायों तत्व को संभालता है। लेकिन यदि कोई व्यक्ति बार-बार डेटा को गिनता है, तो क्या करता है?

— ब्रायन

एक कारण है कि पुनर्संयोजित नकारात्मक द्विपद मॉडल अति-छितरी हुई पॉइसन डेटा के साथ लोकप्रिय है, यह एक अतिरिक्त फैलाव पैरामीटर के साथ मॉडल "माया के समान कार्य" के रूप में भिन्नता है, अतिरिक्त "विचरण" करने के लिए। एक त्वरित सूत्र के लिए पृष्ठ 487 यहां देखें: worldcientific.com/doi/pdf/10.1142/9789813235533_0044 और पुनर्मूल्यांकन पर स्पष्टीकरण के लिए विकिपीडिया पृष्ठ: en.wikipedia.org.wiki/Negative_binomial_distribution

— Samir Rachid Zaim

4

यदि पोइसन के लिए आपका औसत मूल्य 1500 है, तो आप एक सामान्य वितरण के बहुत करीब हैं; आप एक सन्निकटन के रूप में इसका उपयोग करने की कोशिश कर सकते हैं और फिर माध्य और भिन्न रूप से मॉडलिंग कर सकते हैं।

— धनी
स्रोत

यह सिर्फ एक उदाहरण है - इसमें एक माध्यिका हो सकती है जो 200 के क्रम पर बहुत छोटी होती है (यह इस बात पर निर्भर करता है कि मैं डेटा को कैसे विभाजित करता हूं)। यह एक सामान्य वितरण, सही का उपयोग करना होगा?

— क्रिसमिलर

1

Poisson वितरण के लिए सामान्य सन्निकटन बहुत मजबूत है, CDFs के बीच अंतर 0.75 / sqrt (लैम्ब्डा) जैसे कुछ से घिरा हुआ है, अगर मुझे सही याद है। मैं लैम्ब्डा = 200 का उपयोग करने के बारे में बहुत चिंतित नहीं हूं, लेकिन यदि आप अधिक जोखिम वाले हैं, तो निश्चित रूप से नकारात्मक द्विपद के साथ जाएं।

— रिच