मेरे पास वही है जो मैंने भली-भांति समझा था कि यह एक सीधे आगे की समस्या है जिसमें गणना डेटा के कई अलग-अलग सेटों के लिए एकमुश्त पता लगाना शामिल है। विशेष रूप से, मैं यह निर्धारित करना चाहता हूं कि क्या गणना डेटा की एक श्रृंखला में एक या अधिक मान वितरण के बाकी हिस्सों की अपेक्षा अधिक या कम है।
भ्रमित करने वाला कारक यह है कि मुझे 3,500 वितरणों के लिए ऐसा करने की आवश्यकता है और यह संभावना है कि उनमें से कुछ एक शून्य फुलाए हुए अतिप्रवाहित पॉइसोन फिट होंगे, जबकि अन्य सबसे अच्छा एक नकारात्मक द्विपद या ZINB फिट कर सकते हैं, जबकि अभी भी दूसरों को सामान्य रूप से वितरित किया जा सकता है। इस कारण से, वितरण के सरल जेड-स्कोर या प्लॉटिंग अधिकांश डेटासेट के लिए उपयुक्त नहीं हैं। यहां गणना डेटा का एक उदाहरण है जिसके लिए मैं आउटलेर का पता लगाना चाहता हूं।
counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0
0 0 0 0 1 2 1 1 1 1 1 1 0 1 1 2 0 0 0 1 0 1 2 1 1 0 2 1 1 1 0 0 1 0 0 0
2 0 1 1 0 2 1 0 1 1 0 0 2 1 0 1 1 1 1 2 0 3]
counts2=[0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
1 1 0 0 0]
counts3=[14 13 14 14 14 14 13 14 14 14 14 14 15 14 14 14 14 14 14 15 14 13 14 14
15 12 13 17 13 14 14 14 14 15 14 14 13 14 13 14 14 14 14 13 14 14 14 15
15 14 14 14 14 14 15 14 1414 14 15 14 14 14 14 14 14 14 14 14 14 14 14 13 16]
counts4=[0 3 1.......]
and so on up to counts3500.
प्रारंभ में मैंने सोचा था कि मुझे पायथन या आर में एक लूप लिखने की आवश्यकता होगी जो प्रत्येक वितरण के लिए मॉडल का एक सेट लागू करेगा और एआईसी या अन्य (शायद आर में फिटडिसरप्लस?) के अनुसार सबसे अच्छा फिटिंग मॉडल का चयन करेगा। फिर मैं पूछ सकता हूं कि दिए गए वितरण के लिए चरम सीमाएं क्या थीं (गिनती में गिरी हुई पूंछें जैसे "4" की गिनती ऊपर की गणना 1 वितरण में एक समान होगी?)। हालांकि, मुझे यकीन नहीं है कि यह एक वैध रणनीति है, और मेरे साथ ऐसा हुआ है कि काउंट डेटा में आउटलेर का निर्धारण करने के लिए एक सरल पद्धति हो सकती है, जिसके बारे में मुझे जानकारी नहीं थी। मैंने बड़े पैमाने पर खोज की है और कुछ भी नहीं पाया है जो मेरी समस्या के लिए उपयुक्त लगता है जिसे मैं देखना चाहता हूं वितरण की संख्या।
मेरा अंतिम लक्ष्य सबसे सांख्यिकीय रूप से उपयुक्त कार्यप्रणाली का उपयोग करते हुए, काउंट्स के प्रत्येक वितरण के लिए एक गिनती में महत्वपूर्ण वृद्धि या घटने का पता लगाना है।