यदि पोइसन नहीं है, तो यह कौन सा वितरण है?


11

मेरे पास 7 दिनों के दौरान व्यक्तियों द्वारा किए गए कार्यों की संख्या से युक्त एक डेटा सेट है। इस प्रश्न के लिए विशिष्ट कार्रवाई प्रासंगिक नहीं होनी चाहिए। यहाँ डेटा सेट के लिए कुछ वर्णनात्मक आँकड़े दिए गए हैं:

Range0772Mean18.2Variance2791Number of observations696

यहाँ डेटा का एक हिस्टोग्राम है: कार्रवाई हिस्टोग्राम

डेटा के स्रोत को देखते हुए, मुझे लगा कि यह एक पॉइसन वितरण के लिए उपयुक्त होगा। हालांकि, मतलब iance विचरण, और हिस्टोग्राम बाईं ओर भारी है। इसके अतिरिक्त, मैंने goodfitR में परीक्षण चलाया और मिला:

> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2                   df         P(> X^2) <br>
Pearson 2.937599e+248 771        0  

अधिकतम संभावना विधि ने भी पी-मान प्राप्त किया है = 0. शून्य परिकल्पना को मानते हुए: डेटा एक पॉइसन वितरण (दस्तावेज इसे निर्दिष्ट नहीं करता है) से मेल खाता है, तो goodfitपरीक्षण कहता है कि हमें शून्य परिकल्पना को अस्वीकार करना चाहिए, इसलिए डेटा नहीं करता है पोइसन वितरण का मिलान करें।

क्या वह विश्लेषण सही है? यदि हां, तो क्या आपको लगता है कि वितरण इस डेटा को फिट करेगा?

मेरा अंतिम लक्ष्य यह देखने के लिए है कि 2 नमूनों के बीच क्रियाओं की संख्या की तुलना करना है कि क्या साधन अलग हैं; क्या वितरण की जाँच आवश्यक है? मेरी समझ यह है कि विशिष्ट परीक्षण (z-, t-, परीक्षण) पॉसों के वितरण के लिए काम नहीं करते हैं। यदि वास्तव में पॉइज़न-वितरित डेटा है तो मुझे किस परीक्षण का उपयोग करना चाहिए?χ2


क्या आपने पहले ही नकारात्मक द्विपद की कोशिश की है? क्या इससे मदद मिली?
रिक

@ रिचर्ड, मैंने नकारात्मक द्विपद की कोशिश की, और यह फिट नहीं हुआ। सुझावों के लिए धन्यवाद। चूंकि मैं यह पता नहीं लगा सका कि यह किस प्रकार का वितरण था, मैंने वितरण को अनदेखा करने और गैर-पैरामीट्रिक परीक्षण, मान-व्हिटनी यू परीक्षण के साथ जाने का फैसला किया।
Dcook

नकारात्मक बिन के लिए सिर्फ एक और टिप्पणी। में en.wikipedia.org/wiki/Negative_binomial_distribution आप मतलब के लिए सूत्र और विचरण और कहा कि देखते हैं । इस तरह के एक यह कोई मतलब होगा? यदि नहीं, तो और भी अधिक सबूत हैं कि नकारात्मक बिन यहां एक अच्छा मॉडल नहीं है (यदि हम पल के अनुमानकों में विश्वास करते हैं)। pmean/variance=1pp
रिक

मुझे नहीं लगता कि मेरे मामले में बर्नौली मुकदमे की अवधारणा लागू होती है। सफलता या असफलता की कोई अवधारणा नहीं है; विषय या तो ब्याज की कार्रवाई को निष्पादित करते हैं या वे नहीं करते हैं। वे कोशिश नहीं करते और असफल होते हैं। इसलिए, सफलता की संभावना का विचार समझ में नहीं आता है। जब तक कि परीक्षण समय की एक इकाई है। लेकिन फिर उस समय की अवधि में विषय को कई कार्यों को निष्पादित करने से रोकने के लिए कुछ भी नहीं है।
23

आप अपने डेटा की व्याख्या करना सबसे अच्छा जानते हैं। मैं बस आपको उस नकारात्मक याद दिलाना चाहता था। एक मिश्रण के रूप में उठता है (यदि एक गामा-वितरण का अनुसरण करता है। इस प्रकार एक मामले में उसी तरह व्याख्या कर सकता है। लेकिन मैं आपको मजबूर नहीं करना चाहता हूं :)। एक और टिप्पणी: यदि विषय एक समय बिंदु में कई क्रियाओं को निष्पादित कर सकता है: तो क्या यह कंपाउंड पॉइसन / नेगबिन नहीं हो सकता है? कृपया मुझे बताएं कि क्या आप उस पर अधिक टिप्पणी चाहते हैं। lmabda
रिक

जवाबों:


8

यदि विचरण माध्य से अधिक है तो इसे अति-फैलाव कहा जाता है। इसके लिए एक प्राकृतिक मॉडल नकारात्मक द्विपद वितरण है। इसे एक पॉइज़न वितरण के रूप में भी देखा जा सकता है जहां पैरामीटर लैम्बडा एक गामा वितरण का अनुसरण करता है। एक पहला और आसान कदम एक नकारात्मक द्विपद वितरण के लायक हो सकता है।


5

यदि आपका कच्चा गणना डेटा एक पॉइसन वितरण की तरह नहीं दिखता है, तो आप कुछ याद कर रहे हैं। शायद क्रियाओं की संख्या तापमान पर निर्भर है, इसलिए गर्म दिनों में लोग कम चीजें करते हैं। फिर आपके अध्ययन की अवधि में तापमान भिन्नता वितरण को प्रभावित करती है और इसे गैर-पॉइसन बनाती है।

हालांकि, प्रत्येक दिन की क्रियाओं की संख्या अभी भी तापमान पर निर्भर माध्य के साथ पॉइसन हो सकती है। यदि आपके पास प्रत्येक दिन तापमान है, तो आप एक GLM कर सकते हैं, एक पॉइसन चर के रूप में कई कार्यों को फिर से कर सकते हैं, तापमान पर निर्भर करते हैं। अगर वह अच्छी तरह से फिट बैठता है, तो काम किया जाता है।

यदि आपके पास संभावित व्याख्यात्मक चर नहीं हैं, तो आप सभी कह सकते हैं कि "कुछ और चल रहा है - क्रियाओं की संख्या स्वतंत्र पॉइसन नमूनों से नहीं है" - यानी आपकी अशक्त परिकल्पना को अस्वीकार करें।

वितरण-मुक्त परीक्षण हैं जो रैंकिंग और इतने पर उपयोग करके युग्मित टिप्पणियों की तुलना कर सकते हैं। आमतौर पर वे बड़ी संख्या में क्रमपरिवर्तन करते हैं और एक परीक्षण सांख्यिकीय की गणना करते हैं ...


4

एक और बात: आपको काउंट डेटा में आउटलेयर की भी जांच करनी चाहिए। आपको 400-ईश पर एक गिनती मिली है और फिर 800-ईश तक कुछ भी नहीं है। यह किसी भी सामान्य मॉडल द्वारा फिट होने की संभावना नहीं है।


1

आप शून्य घटनाओं की संख्या की गिनती करते प्रतीत होते हैं - यदि ऐसा है, तो आप एक ज़िप मॉडल (या बाधा) पर विचार कर सकते हैं - एक ओवरव्यू के लिए जीलिस एट अल द्वारा गणना डेटा के लिए प्रतिगमन मॉडल देखें ।

मोटे तौर पर संक्षेप में, ये विधियाँ शून्य गणनाओं को बाकी गणनाओं से अलग करती हैं जो आपके मामले में उपयोगी हो सकती हैं।

देखें psclपैकेज और zeroinfl()और hurdle()कार्य करता है।


1

मुझे संदेह है कि आपका हिस्टोग्राम कपटपूर्ण है। यदि आपके पास 300 से अधिक अवलोकन हैं, तो समान रूप से 0-50 की सीमा तक फैल जाते हैं , लगभग 320 समान रूप से 50-100 की सीमा में फैलते हैं, और 50 या 100 से अधिक के ऊपर, आपका मतलब 18.2 से काफी बड़ा होना चाहिए।

यदि 0-50 की सीमा में डेटा समान रूप से फैला हुआ नहीं है, लेकिन शून्य के पास केंद्रित है, तो 0-50 रेंज की तुलना में 50-100 रेंज में अधिक देखना आश्चर्यजनक है।

शायद आपके पास वितरण का मिश्रण है। मुझे संदेह है कि कोई भी वास्तविक 696 टिप्पणियों के बिना और विशेष रूप से संदर्भ के बारे में अधिक जानने के बिना इसके साथ बहुत कुछ कर सकता है। क्या प्रत्येक 696 अवलोकनों में एक व्यक्ति है और प्रत्येक व्यक्ति द्वारा किए गए कार्यों की संख्या की प्रतिक्रिया है? यदि हां, तो क्या डेटा में विभिन्न प्रकार के व्यक्ति हैं?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.