गणना डेटा में आउटलेर का पता लगाना


21

मेरे पास वही है जो मैंने भली-भांति समझा था कि यह एक सीधे आगे की समस्या है जिसमें गणना डेटा के कई अलग-अलग सेटों के लिए एकमुश्त पता लगाना शामिल है। विशेष रूप से, मैं यह निर्धारित करना चाहता हूं कि क्या गणना डेटा की एक श्रृंखला में एक या अधिक मान वितरण के बाकी हिस्सों की अपेक्षा अधिक या कम है।

भ्रमित करने वाला कारक यह है कि मुझे 3,500 वितरणों के लिए ऐसा करने की आवश्यकता है और यह संभावना है कि उनमें से कुछ एक शून्य फुलाए हुए अतिप्रवाहित पॉइसोन फिट होंगे, जबकि अन्य सबसे अच्छा एक नकारात्मक द्विपद या ZINB फिट कर सकते हैं, जबकि अभी भी दूसरों को सामान्य रूप से वितरित किया जा सकता है। इस कारण से, वितरण के सरल जेड-स्कोर या प्लॉटिंग अधिकांश डेटासेट के लिए उपयुक्त नहीं हैं। यहां गणना डेटा का एक उदाहरण है जिसके लिए मैं आउटलेर का पता लगाना चाहता हूं।

counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0 
         0 0 0 0 1 2 1 1 1 1 1 1 0 1 1 2 0 0 0 1 0 1 2 1 1 0 2 1 1 1 0 0 1 0 0 0 
         2 0 1 1 0 2 1 0 1 1 0 0 2 1 0 1 1 1 1 2 0 3]
counts2=[0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 
         0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
         0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 
         1 1 0 0 0]
counts3=[14 13 14 14 14 14 13 14 14 14 14 14 15 14 14 14 14 14 14 15 14 13 14 14 
         15 12 13 17 13 14 14 14 14 15 14 14 13 14 13 14 14 14 14 13 14 14 14 15 
         15 14 14 14 14 14 15 14 1414 14 15 14 14 14 14 14 14 14 14 14 14 14 14 13 16]
counts4=[0 3 1.......]
and so on up to counts3500.

प्रारंभ में मैंने सोचा था कि मुझे पायथन या आर में एक लूप लिखने की आवश्यकता होगी जो प्रत्येक वितरण के लिए मॉडल का एक सेट लागू करेगा और एआईसी या अन्य (शायद आर में फिटडिसरप्लस?) के अनुसार सबसे अच्छा फिटिंग मॉडल का चयन करेगा। फिर मैं पूछ सकता हूं कि दिए गए वितरण के लिए चरम सीमाएं क्या थीं (गिनती में गिरी हुई पूंछें जैसे "4" की गिनती ऊपर की गणना 1 वितरण में एक समान होगी?)। हालांकि, मुझे यकीन नहीं है कि यह एक वैध रणनीति है, और मेरे साथ ऐसा हुआ है कि काउंट डेटा में आउटलेर का निर्धारण करने के लिए एक सरल पद्धति हो सकती है, जिसके बारे में मुझे जानकारी नहीं थी। मैंने बड़े पैमाने पर खोज की है और कुछ भी नहीं पाया है जो मेरी समस्या के लिए उपयुक्त लगता है जिसे मैं देखना चाहता हूं वितरण की संख्या।

मेरा अंतिम लक्ष्य सबसे सांख्यिकीय रूप से उपयुक्त कार्यप्रणाली का उपयोग करते हुए, काउंट्स के प्रत्येक वितरण के लिए एक गिनती में महत्वपूर्ण वृद्धि या घटने का पता लगाना है।

जवाबों:


23

आप अपने डेटा के एक शास्त्रीय फिट से एक अवलोकन की दूरी का उपयोग करने के लिए मज़बूती से आउटलेर्स का पता लगा सकते हैं क्योंकि आपके द्वारा उपयोग की जाने वाली फिटिंग प्रक्रिया आउटलेर्स की ओर खींचने के लिए स्वयं उत्तरदायी है (इसे मास्किंग प्रभाव कहा जाता है)। बाहरी लोगों को भरोसेमंद तरीके से पता लगाने का एक सरल तरीका यह है कि आपके द्वारा सुझाए गए सामान्य विचार (फिट से दूरी) का उपयोग करें, लेकिन शास्त्रीय अनुमानकों को मजबूत करने के लिए बाहरी लोगों द्वारा बहाने के लिए अतिसंवेदनशील बहुत कम है। नीचे मैं विचार का एक सामान्य चित्रण प्रस्तुत करता हूं और फिर आपकी विशिष्ट समस्या के समाधान पर चर्चा करता हूं।

एन(0,1)

x<-c(-2.21,-1.84,-.95,-.91,-.36,-.19,-.11,-.1,.18,
.3,.31,.43,.51,.64,.67,.72,1.22,1.35,8.1,17.6)

(अंतिम दो वास्तव में होना चाहिए .81 और 1.76 लेकिन गलती से गलत हो गए हैं)।

आँकड़ों की तुलना के आधार पर एक बाह्य पहचान नियम का उपयोग करना

|एक्समैं-एवेन्यू(एक्समैं)|एसडी(एक्समैं)

एसडीएसडी

क्या आपने इसके बजाय एक मजबूत आँकड़ा इस्तेमाल किया है:

|एक्समैं-मेड(एक्समैं)|पागल(एक्समैं)

zएसडी

(पूर्णता के हित में मुझे इस बात पर ध्यान देना चाहिए कि कुछ लोग, इस उम्र और दिन में भी, कच्चे - चाटुकार को पकड़ना पसंद करते हैं - ट्रिमिंग के आधार पर अधिक सटीक अनुमान का उपयोग करने के बजाय 4.35 का अनुमान है, लेकिन यह मेरे लिए अकल्पनीय है )

अन्य वितरणों के लिए स्थिति अलग नहीं है, केवल यह कि आपको अपने डेटा को पहले से बदलना होगा। उदाहरण के लिए, आपके मामले में:

एक्स

Y=2एक्स

Y>मेड(Y)+3

एक्स

Yएन(मेड(Y),1)

λ

λλ=3

पी

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.