मैंने आउटलेर्स पर बहुत सारे शोध किए हैं, खासकर जब मैंने ओक रिज पर ऊर्जा डेटा सत्यापन पर 1978 से 1980 तक काम किया था। सामान्य डेटा (जैसे ग्रब्स के परीक्षण और डिक्सन के अनुपात परीक्षण) के लिए यूनीवेरिएट आउटलेर के लिए औपचारिक परीक्षण हैं। बहुभिन्नरूपी आउटलेयर और समय श्रृंखला के लिए परीक्षण हैं। Barnett और लुईस द्वारा "सांख्यिकीय डेटा में आउटलेयर" की पुस्तक आउटलेर पर बाइबल है और इसमें लगभग हर चीज शामिल है।
जब मैं ओक रिज पर डेटा सत्यापन पर काम कर रहा था तो हमारे पास बड़े बहुभिन्नरूपी डेटा सेट थे। अनिवारी आउटलेर के लिए चरम सीमा (अति से अधिक और माध्य से नीचे) के लिए एक दिशा है। लेकिन बहुभिन्नरूपी आउटलेयर के लिए आउटलेर की तलाश के लिए कई दिशाएं हैं। हमारा दर्शन यह विचार करना था कि डेटा का इच्छित उपयोग क्या है। यदि आप कुछ मापदंडों जैसे कि बीवरिएट सहसंबंध या प्रतिगमन गुणांक का अनुमान लगाने की कोशिश कर रहे हैं, तो आप उस दिशा में देखना चाहते हैं जो ब्याज के पैरामीटर पर सबसे बड़ा प्रभाव प्रदान करता है। उस समय मैंने प्रभाव कार्यों पर मल्लो का अप्रकाशित पत्र पढ़ा था। आउटलेयर्स का पता लगाने के लिए प्रभाव कार्यों का उपयोग ज्ञानादिकानन की बहुभिन्नरूपी विश्लेषण पुस्तक में शामिल है। बेशक आप इसे बार्नेट और लुईस में भी पा सकते हैं।
एक पैरामीटर के लिए प्रभाव फ़ंक्शन को टिप्पणियों के बहुभिन्नरूपी स्थान में बिंदुओं पर परिभाषित किया गया है और आवश्यक रूप से पैरामीटर अनुमान के बीच अंतर को मापता है जब डेटा बिंदु को शामिल किया जाता है जब इसे छोड़ दिया जाता है। आप प्रत्येक नमूना बिंदु के साथ इस तरह के अनुमान लगा सकते हैं, लेकिन आमतौर पर आप प्रभाव फ़ंक्शन के लिए एक अच्छा कार्यात्मक रूप प्राप्त कर सकते हैं जो अंतर्दृष्टि और तेज गणना देता है।
उदाहरण के लिए 1982 में अमेरिकन जर्नल ऑफ मैथमेटिकल एंड मैनेजमेंट साइंस में मेरे पेपर में "इन्फ्लुएंस फंक्शन एंड इट्स एप्लिकेशन टू डेटा वैलिडेशन" मैं बीवरिएट सहसंबंध के लिए प्रभाव फ़ंक्शन के लिए विश्लेषणात्मक सूत्र दिखाता है और यह है कि निरंतर प्रभाव के संदर्भ हाइपरबोले हैं। तो समतल विमान में दिशा दिखाते हैं जहां प्रभाव फ़ंक्शन सबसे तेजी से बढ़ता है।
अपने पेपर में मैं दिखाता हूं कि कैसे हमने एफपीसी फॉर्म 4 के साथ बाइवेरेट सहसंबंध के लिए प्रभाव कार्य को पीढ़ी और ऊर्जा की खपत पर लागू किया। दोनों के बीच एक स्पष्ट उच्च सकारात्मक सहसंबंध है और हमने कुछ बाहरी लोगों को पाया जो सहसंबंध के अनुमान पर अत्यधिक प्रभावशाली थे। आगे की जांच से पता चला कि कम से कम एक अंक त्रुटि में था और हम इसे ठीक करने में सक्षम थे।
लेकिन एक महत्वपूर्ण बिंदु जो मैं हमेशा उल्लेख करता हूं जब आउटलेयर पर चर्चा करते हैं तो यह है कि स्वचालित अस्वीकृति गलत है। आउटलाइन हमेशा एक त्रुटि नहीं होती है और कभी-कभी यह डेटा के बारे में महत्वपूर्ण जानकारी प्रदान करती है। मान्य डेटा को केवल इसलिए नहीं हटाया जाना चाहिए क्योंकि यह हमारे वास्तविकता के सिद्धांत के अनुरूप नहीं है। यह करना मुश्किल है या नहीं, इस वजह से कि बाहरी स्थिति हमेशा जांच की जानी चाहिए।
मुझे यह उल्लेख करना चाहिए कि यह पहली बार नहीं है जब इस साइट में मल्टीवेरेट आउटलेयर पर चर्चा की गई है। आउटलेयर की खोज संभवतः कई प्रश्नों को जन्म देगी जहां मल्टीवेरेट आउटलेयर पर चर्चा की गई है। मुझे पता है कि मैंने पहले अपने कागज और इन पुस्तकों को संदर्भित किया है और उन्हें लिंक दिए हैं।
इसके अलावा जब बाहरी अस्वीकृति पर चर्चा की जाती है, तो इस साइट पर हममें से कई लोगों ने इसके खिलाफ सिफारिश की है, खासकर अगर यह एक सांख्यिकीय परीक्षण के आधार पर किया जाता है। पीटर ह्यूबर अक्सर बाहरी अस्वीकृति के विकल्प के रूप में मजबूत अनुमान का उल्लेख करते हैं। विचार यह है कि मजबूत प्रक्रियाएं आउटलेर्स को कम कर देंगी और उन्हें खारिज करने के भारी-भरकम कदम के बिना अनुमान पर अपना प्रभाव कम करेंगी और गैर-मजबूत अनुमानक का उपयोग करेंगी।
प्रभाव समारोह वास्तव में मूल रूप से 1970 के दशक की शुरुआत (1974 में मुझे लगता है) में अपने पीएचडी शोध प्रबंध में फ्रैंक हेम्पेल द्वारा विकसित किया गया था। उनका विचार वास्तव में अनुमानों की पहचान करने के लिए प्रभाव कार्यों का उपयोग करना था जो कि आउटलेर के खिलाफ मजबूत नहीं थे और मजबूत आकलनकर्ताओं को विकसित करने में मदद करते थे।
इस विषय पर पिछली चर्चा का एक लिंक यहां दिया गया है जहां मैंने प्रभाव कार्यों का उपयोग करके समय श्रृंखला में आउटलेर्स का पता लगाने पर मेरे कुछ काम का उल्लेख किया था।