क्या आउटलेर्स का पता लगाने का एक सरल तरीका है?


14

मुझे आश्चर्य हो रहा है कि क्या आउटलेयर का पता लगाने का एक सरल तरीका है।

मेरी एक परियोजना के लिए, जो मूल रूप से एक सप्ताह में शारीरिक गतिविधि में भाग लेने वाले उत्तरदाताओं की संख्या के बीच सहसंबंध था और एक सप्ताह में घर (फास्ट फूड) के बाहर खाने की संख्या, मैंने एक स्कैल्पलॉट आकर्षित किया और शाब्दिक रूप से हटा दिया डेटा बिंदु जो चरम थे। (स्कैटरप्लॉट ने नकारात्मक सहसंबंध दिखाया।)

यह मूल्य निर्णय पर आधारित था (स्कैल्पलॉट के आधार पर जहां ये डेटा बिंदु स्पष्ट रूप से चरम थे)। मैंने कोई सांख्यिकीय परीक्षण नहीं किया।

मैं बस सोच रहा था कि क्या यह आउटलेयर से निपटने का एक अच्छा तरीका है।

मेरे पास 350 लोगों का डेटा है (इसलिए) 20 डेटा पॉइंट्स का नुकसान मेरे लिए चिंता का विषय नहीं है।


यह भी इसी तरह के सवाल का जवाब देखें एक बाहरी की कठोर परिभाषा
जोनास

3
इसके अलावा बहुत ही बारीकी से संबंधित आँकड़े है ।stackexchange.com/questions/175 । कई संभावित बाहरी पता लगाने के तरीकों का वर्णन आँकड़ों पर वर्णित है ।stackexchange.com / questions / 213 । लेकिन इस बिंदु से अधिक कुछ संदर्भ होगा : आप इस बिखराव के साथ क्या कर रहे हैं? आप इससे क्या निष्कर्ष निकालने की कोशिश कर रहे हैं? कुछ निष्कर्ष इस बात पर बहुत कम निर्भर करेंगे कि आप बाहरी लोगों के साथ क्या करते हैं, जबकि अन्य उन पर निर्भर हो सकते हैं। यह इंगित करता है कि आउटलेयर की पहचान और उपचार के लिए आपके द्वारा उपयोग की जाने वाली विधियाँ, इच्छित विश्लेषण पर निर्भर होनी चाहिए।
whuber

अर्थशास्त्र के डेटासेट में मानक प्रथा सिर्फ यह कहती है कि "हम 2.5% और 97.5% पर डेटासेट को हवा देते हैं" या वैकल्पिक रूप से 1% और 99%। फिर वे केवल उन टिप्पणियों को हटाते हैं जो उस मात्रात्मक सीमा से बाहर हैं।

@Harokitty Winsorising का अर्थ है कि उन्हें मानने से रोकने के बजाय मूल्यों की कतरन करना।
पीटर वुड

मैं आपको सलाह दूंगा कि आप डेटा रिकॉर्डिंग में किसी भी त्रुटि के अलावा बिखरे हुए प्लॉट की रिपोर्ट करें। यह संभव है कि एक या एक से अधिक अतिरिक्त आबादी हो सकती है। एक परीक्षा के लिए, Hertzsprung-Russell आरेख के लिए विकिपीडिया प्रविष्टि en.wikipedia.org/wiki/Hertzsprung%E2%80%93Russell_diagram पर देखें
रॉबर्ट जोन्स

जवाबों:


21

आउटलेयर को हटाने के लिए कोई सरल ध्वनि तरीका नहीं है। आउटलेर दो प्रकार के हो सकते हैं:

1) डाटा एंट्री एरर। ये अक्सर स्पॉट करने में सबसे आसान होते हैं और इससे निपटने के लिए हमेशा सबसे आसान। यदि आप सही डेटा पा सकते हैं, तो इसे सही करें; यदि नहीं, तो इसे हटा दें।

2) वैध डेटा जो असामान्य है। यह बहुत पेचीदा है। आपके जैसे द्विभाजित डेटा के लिए, बाहरी एकतरफा या द्विभाजित हो सकता है।

a) Univariate। सबसे पहले, "असामान्य" वितरण और नमूना आकार पर निर्भर करता है। आप हमें 350 का नमूना आकार देते हैं, लेकिन वितरण क्या है? यह स्पष्ट रूप से सामान्य नहीं है, क्योंकि यह अपेक्षाकृत छोटा पूर्णांक है। एक पॉइसन के तहत जो असामान्य है वह एक नकारात्मक द्विपद के तहत नहीं होगा। मुझे एक शून्य-प्रेरित नकारात्मक द्विपद संबंध पर संदेह है।

लेकिन जब आपके पास वितरण होता है, तब भी (संभव) आउटलेयर मापदंडों को प्रभावित करेगा। आप "एक को छोड़ दो" वितरणों को देख सकते हैं, जहां आप जांचते हैं कि क्या डेटा बिंदु q एक बाहरी होगा यदि डेटा में सभी बिंदु थे लेकिन q। फिर भी, हालांकि, क्या होगा यदि कई आउटलेयर हैं?

b) Bivariate। यह वह जगह है जहां न तो चर का मूल्य अपने आप में असामान्य है, लेकिन साथ में वे विषम हैं। संभवतः एक एपोक्रिफल रिपोर्ट है कि एक बार जनगणना में कहा गया था कि संयुक्त राज्य अमेरिका में 20,000 12 वर्षीय विधवाएं थीं। 12 साल के बच्चे असामान्य नहीं हैं, विधवा भी नहीं हैं, लेकिन 12 साल की विधवा हैं।

यह सब देखते हुए, रिश्ते की एक मजबूत माप की रिपोर्ट करना सरल हो सकता है।


धन्यवाद। मुझे लगता है कि शायद एक आत्मविश्वास दीर्घवृत्त आउटलेर्स का एक अच्छा संकेतक होगा, क्योंकि यह डेटा का प्रतिशत दिखाएगा जो एक निश्चित आत्मविश्वास स्तर (सामान्य वितरण वितरित) दिया जाता है।
४२:१

आपका डेटा द्विचर सामान्य नहीं हो सकता है, क्योंकि यह गैर नकारात्मक पूर्णांक से बना है
फिर से बहाल करते मोनिका - पीटर Flom

18

मैंने आउटलेर्स पर बहुत सारे शोध किए हैं, खासकर जब मैंने ओक रिज पर ऊर्जा डेटा सत्यापन पर 1978 से 1980 तक काम किया था। सामान्य डेटा (जैसे ग्रब्स के परीक्षण और डिक्सन के अनुपात परीक्षण) के लिए यूनीवेरिएट आउटलेर के लिए औपचारिक परीक्षण हैं। बहुभिन्नरूपी आउटलेयर और समय श्रृंखला के लिए परीक्षण हैं। Barnett और लुईस द्वारा "सांख्यिकीय डेटा में आउटलेयर" की पुस्तक आउटलेर पर बाइबल है और इसमें लगभग हर चीज शामिल है।

जब मैं ओक रिज पर डेटा सत्यापन पर काम कर रहा था तो हमारे पास बड़े बहुभिन्नरूपी डेटा सेट थे। अनिवारी आउटलेर के लिए चरम सीमा (अति से अधिक और माध्य से नीचे) के लिए एक दिशा है। लेकिन बहुभिन्नरूपी आउटलेयर के लिए आउटलेर की तलाश के लिए कई दिशाएं हैं। हमारा दर्शन यह विचार करना था कि डेटा का इच्छित उपयोग क्या है। यदि आप कुछ मापदंडों जैसे कि बीवरिएट सहसंबंध या प्रतिगमन गुणांक का अनुमान लगाने की कोशिश कर रहे हैं, तो आप उस दिशा में देखना चाहते हैं जो ब्याज के पैरामीटर पर सबसे बड़ा प्रभाव प्रदान करता है। उस समय मैंने प्रभाव कार्यों पर मल्लो का अप्रकाशित पत्र पढ़ा था। आउटलेयर्स का पता लगाने के लिए प्रभाव कार्यों का उपयोग ज्ञानादिकानन की बहुभिन्नरूपी विश्लेषण पुस्तक में शामिल है। बेशक आप इसे बार्नेट और लुईस में भी पा सकते हैं।

एक पैरामीटर के लिए प्रभाव फ़ंक्शन को टिप्पणियों के बहुभिन्नरूपी स्थान में बिंदुओं पर परिभाषित किया गया है और आवश्यक रूप से पैरामीटर अनुमान के बीच अंतर को मापता है जब डेटा बिंदु को शामिल किया जाता है जब इसे छोड़ दिया जाता है। आप प्रत्येक नमूना बिंदु के साथ इस तरह के अनुमान लगा सकते हैं, लेकिन आमतौर पर आप प्रभाव फ़ंक्शन के लिए एक अच्छा कार्यात्मक रूप प्राप्त कर सकते हैं जो अंतर्दृष्टि और तेज गणना देता है।

उदाहरण के लिए 1982 में अमेरिकन जर्नल ऑफ मैथमेटिकल एंड मैनेजमेंट साइंस में मेरे पेपर में "इन्फ्लुएंस फंक्शन एंड इट्स एप्लिकेशन टू डेटा वैलिडेशन" मैं बीवरिएट सहसंबंध के लिए प्रभाव फ़ंक्शन के लिए विश्लेषणात्मक सूत्र दिखाता है और यह है कि निरंतर प्रभाव के संदर्भ हाइपरबोले हैं। तो समतल विमान में दिशा दिखाते हैं जहां प्रभाव फ़ंक्शन सबसे तेजी से बढ़ता है।

अपने पेपर में मैं दिखाता हूं कि कैसे हमने एफपीसी फॉर्म 4 के साथ बाइवेरेट सहसंबंध के लिए प्रभाव कार्य को पीढ़ी और ऊर्जा की खपत पर लागू किया। दोनों के बीच एक स्पष्ट उच्च सकारात्मक सहसंबंध है और हमने कुछ बाहरी लोगों को पाया जो सहसंबंध के अनुमान पर अत्यधिक प्रभावशाली थे। आगे की जांच से पता चला कि कम से कम एक अंक त्रुटि में था और हम इसे ठीक करने में सक्षम थे।

लेकिन एक महत्वपूर्ण बिंदु जो मैं हमेशा उल्लेख करता हूं जब आउटलेयर पर चर्चा करते हैं तो यह है कि स्वचालित अस्वीकृति गलत है। आउटलाइन हमेशा एक त्रुटि नहीं होती है और कभी-कभी यह डेटा के बारे में महत्वपूर्ण जानकारी प्रदान करती है। मान्य डेटा को केवल इसलिए नहीं हटाया जाना चाहिए क्योंकि यह हमारे वास्तविकता के सिद्धांत के अनुरूप नहीं है। यह करना मुश्किल है या नहीं, इस वजह से कि बाहरी स्थिति हमेशा जांच की जानी चाहिए।

मुझे यह उल्लेख करना चाहिए कि यह पहली बार नहीं है जब इस साइट में मल्टीवेरेट आउटलेयर पर चर्चा की गई है। आउटलेयर की खोज संभवतः कई प्रश्नों को जन्म देगी जहां मल्टीवेरेट आउटलेयर पर चर्चा की गई है। मुझे पता है कि मैंने पहले अपने कागज और इन पुस्तकों को संदर्भित किया है और उन्हें लिंक दिए हैं।

इसके अलावा जब बाहरी अस्वीकृति पर चर्चा की जाती है, तो इस साइट पर हममें से कई लोगों ने इसके खिलाफ सिफारिश की है, खासकर अगर यह एक सांख्यिकीय परीक्षण के आधार पर किया जाता है। पीटर ह्यूबर अक्सर बाहरी अस्वीकृति के विकल्प के रूप में मजबूत अनुमान का उल्लेख करते हैं। विचार यह है कि मजबूत प्रक्रियाएं आउटलेर्स को कम कर देंगी और उन्हें खारिज करने के भारी-भरकम कदम के बिना अनुमान पर अपना प्रभाव कम करेंगी और गैर-मजबूत अनुमानक का उपयोग करेंगी।

प्रभाव समारोह वास्तव में मूल रूप से 1970 के दशक की शुरुआत (1974 में मुझे लगता है) में अपने पीएचडी शोध प्रबंध में फ्रैंक हेम्पेल द्वारा विकसित किया गया था। उनका विचार वास्तव में अनुमानों की पहचान करने के लिए प्रभाव कार्यों का उपयोग करना था जो कि आउटलेर के खिलाफ मजबूत नहीं थे और मजबूत आकलनकर्ताओं को विकसित करने में मदद करते थे।

इस विषय पर पिछली चर्चा का एक लिंक यहां दिया गया है जहां मैंने प्रभाव कार्यों का उपयोग करके समय श्रृंखला में आउटलेर्स का पता लगाने पर मेरे कुछ काम का उल्लेख किया था।


2

गैर-पैरामीट्रिक आंकड़ों का उपयोग करने के लिए बाहरी लोगों से निपटने का एक और सरल तरीका है। संभवतः आपके नमूना आकार के साथ एक स्पीयरमैन का आरएच सहसंबंध के सूचकांक के रूप में अच्छी तरह से काम करेगा। (ध्यान दें, हालांकि, गैर-पैरामीट्रिक, रैंक-ऑर्डर आँकड़े आपको गैर-रैखिक संबंधों के साथ बहुत मदद नहीं करते हैं।)

यदि आप पियर्सन के आर (एक पैरामीट्रिक आँकड़ा) का उपयोग करना चाहते हैं, और यदि आप कुक की दूरी की गणना करने में सक्षम नहीं हैं, तो आप अंगूठे के एक मानक नियम का उपयोग कर सकते हैं जो कि किसी भी डेटा बिंदु जो कि औसत से 2.67 मानक विचलन (sd) से अधिक है , या मतलब से 4.67 एसडी क्रमशः एक बाहरी या चरम है। ये आउटलेर्स और चरम डेटा बिंदुओं के लिए विशिष्ट कटऑफ मान हैं जो एक मानक सांख्यिकीय विश्लेषण कार्यक्रम (SPSS) में उपयोग किए जाते हैं।

सिर्फ इसलिए कि एक डेटा बिंदु एक आउटलाइयर है इसका मतलब यह नहीं है कि इसे छोड़ दिया जाना बुरा डेटा है। आप अपने सहसंबंध को अत्यधिक बिंदुओं के साथ और बिना गणना कर सकते हैं और वहां से जा सकते हैं।


1

आप कुक की दूरी की कोशिश करना चाहते हो सकता है। सुझाए गए कटऑफ के लिए विकिपीडिया लेख देखें। इसके अलावा, यदि आप कुछ प्रतिगमन मॉडल की ओर जा रहे हैं, तो आप मजबूत प्रतिगमन की कोशिश करना चाह सकते हैं।


1
यह उत्तर की तुलना में टिप्पणी की तरह लगता है; उत्तर आमतौर पर लंबे और अधिक विस्तृत होते हैं। उदाहरण के लिए अगर आपने यह तर्क दिया कि कुक की दूरी आउटलेर्स और एक के लिए एक अच्छी परीक्षा है, तो यह एक जवाब होगा।
पीटर Flom - को पुनः स्थापित मोनिका

1

सबसे पहले, जब तक आप यह सुनिश्चित न कर लें कि आप अध्ययन से बाहर हैं, तो एटिपिकल वैल्यूज़ न निकालें! उनमें कुछ महत्वपूर्ण जानकारी (परिवर्तनशीलता) हो सकती हैं। आपको उन्हें छोड़ देना चाहिए अगर यह स्पष्ट है कि गलत तरीके से दर्ज किए गए या मापा डेटा के कारण आउटलाइन है। यदि आप अपने डेटा को प्राप्त करने के लिए उपयोग किए जाने वाले नमूना विधि को नहीं जानते हैं, तो आपको निम्न मूल्यों और उनके प्रभावों की पहचान करनी चाहिए:

  1. ei

  2. hiihii

  3. i
    DCi=ei2·hii/[(1hii)·p]

संभव समाधान:

  • परिवर्तनशील चर और / या मॉडल में नए चर जोड़ना।
  • प्रभावशाली टिप्पणियों के लिए, जो आउटलेयर के अलावा कुछ भी नहीं हैं, यदि कई नहीं हैं, तो आप उन व्यक्तियों को हटा सकते हैं।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.