अतिउत्पादन के साथ एक पॉइज़न वितरण मॉडलिंग


15

मेरे पास एक डेटा सेट है जिसे मैं एक पॉइसन वितरण का पालन करने की उम्मीद करूंगा, लेकिन यह लगभग 3 गुना अधिक है। वर्तमान में, मैं आर में निम्नलिखित कोड की तरह कुछ का उपयोग करके इस अतिप्रवाह को मॉडलिंग कर रहा हूं।

## assuming a median value of 1500
med = 1500
rawdist = rpois(1000000,med)
oDdist = rawDist + ((rawDist-med)*3)

नेत्रहीन, यह मेरे अनुभवजन्य डेटा को बहुत अच्छी तरह से फिट करता है। यदि मैं फिट से खुश हूं, तो क्या कोई कारण है कि मुझे कुछ और जटिल करना चाहिए, जैसे कि एक नकारात्मक द्विपद वितरण का उपयोग करना , जैसा कि यहां वर्णित है ? (यदि हां, तो ऐसा करने पर किसी भी संकेत या लिंक की बहुत सराहना की जाएगी)।

ओह, और मुझे पता है कि यह थोड़ा दांतेदार वितरण (तीन से गुणा के कारण) बनाता है, लेकिन यह मेरे आवेदन के लिए मायने नहीं रखना चाहिए।


अद्यतन: किसी और के लिए, जो इस प्रश्न को खोजता है और पाता है, यहां एक नकारात्मक द्विपद वितरण का उपयोग करके एक अति विशिष्ट कविता को मॉडल करने के लिए एक सरल आर फ़ंक्शन है। वांछित माध्य / विचरण अनुपात के लिए d सेट करें:

rpois.od<-function (n, lambda,d=1) {
  if (d==1)
    rpois(n, lambda)
  else
     rnbinom(n, size=(lambda/(d-1)), mu=lambda)
}

(आर मेलिंग सूची के माध्यम से: https://stat.ethz.ch/pipermail/r-help/2002-June/022425.html )

जवाबों:


11

अतिविशिष्ट पोइज़न के लिए, नकारात्मक द्विपद का उपयोग करें, जो आपको सटीक रूप से फ़ंक्शन के रूप में विचरण को मानकीकृत करने की अनुमति देता है। rnbinom (), आदि में आर।


1
अवलोकन-स्तरीय यादृच्छिक प्रभाव के साथ नकारात्मक द्विपद और मिश्रित मॉडल क्यों नहीं? यह कोई लफ्फाजी वाला सवाल नहीं है। यह एक "मुझे समझ में नहीं आता है कि मुझे कौन सा पसंद करना चाहिए।" सवाल। इसके अलावा, क्या होगा यदि मेरे पास दोहराया उपायों की स्थिति है? जब मेरा डेटा निरंतर होता है, तो मैं एक सामान्यीकृत रैखिक मिश्रित मॉडल का उपयोग करूंगा। गामा वितरण अक्सर निरंतर जैविक डेटा के साथ अच्छी तरह से काम करता है, और मिश्रित मॉडल दोहराया उपायों तत्व को संभालता है। लेकिन यदि कोई व्यक्ति बार-बार डेटा को गिनता है, तो क्या करता है?
ब्रायन

एक कारण है कि पुनर्संयोजित नकारात्मक द्विपद मॉडल अति-छितरी हुई पॉइसन डेटा के साथ लोकप्रिय है, यह एक अतिरिक्त फैलाव पैरामीटर के साथ मॉडल "माया के समान कार्य" के रूप में भिन्नता है, अतिरिक्त "विचरण" करने के लिए। एक त्वरित सूत्र के लिए पृष्ठ 487 यहां देखें: worldcientific.com/doi/pdf/10.1142/9789813235533_0044 और पुनर्मूल्यांकन पर स्पष्टीकरण के लिए विकिपीडिया पृष्ठ: en.wikipedia.org.wiki/Negative_binomial_distribution
Samir Rachid Zaim

4

यदि पोइसन के लिए आपका औसत मूल्य 1500 है, तो आप एक सामान्य वितरण के बहुत करीब हैं; आप एक सन्निकटन के रूप में इसका उपयोग करने की कोशिश कर सकते हैं और फिर माध्य और भिन्न रूप से मॉडलिंग कर सकते हैं।


यह सिर्फ एक उदाहरण है - इसमें एक माध्यिका हो सकती है जो 200 के क्रम पर बहुत छोटी होती है (यह इस बात पर निर्भर करता है कि मैं डेटा को कैसे विभाजित करता हूं)। यह एक सामान्य वितरण, सही का उपयोग करना होगा?
क्रिसमिलर

1
Poisson वितरण के लिए सामान्य सन्निकटन बहुत मजबूत है, CDFs के बीच अंतर 0.75 / sqrt (लैम्ब्डा) जैसे कुछ से घिरा हुआ है, अगर मुझे सही याद है। मैं लैम्ब्डा = 200 का उपयोग करने के बारे में बहुत चिंतित नहीं हूं, लेकिन यदि आप अधिक जोखिम वाले हैं, तो निश्चित रूप से नकारात्मक द्विपद के साथ जाएं।
रिच
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.