फ्लैगिंग आउटलेर्स एक निर्णय कॉल नहीं है (या किसी भी मामले में एक होने की आवश्यकता नहीं है)। एक सांख्यिकीय मॉडल को देखते हुए, आउटलेयर की एक सटीक, उद्देश्य परिभाषा है: वे अवलोकन हैं जो डेटा के बहुमत के पैटर्न का पालन नहीं करते हैं । इस तरह के अवलोकनों को किसी भी विश्लेषण की शुरुआत में अलग करने की आवश्यकता है क्योंकि डेटा के थोक से उनकी दूरी यह सुनिश्चित करती है कि वे अधिकतम संभावना (या वास्तव में किसी भी उत्तल हानि फ़ंक्शन) द्वारा फिट किए गए किसी भी बहुउपयोगी मॉडल पर एक विषम अनुपात को बढ़ाएंगे।
यह इंगित करना महत्वपूर्ण है कि मल्टीवार्इबल आउटलेयर एस को केवल एक न्यूनतम वर्ग फिट (या एमएल द्वारा अनुमानित किसी अन्य मॉडल, या किसी अन्य उत्तल हानि फ़ंक्शन) से अवशिष्ट का उपयोग करके विश्वसनीय रूप से पता नहीं लगाया जा सकता है। सीधे शब्दों में कहें तो, बहुउपयोगी आउटलेयर को केवल उनके अवशेषों का उपयोग करके पता लगाया जा सकता है कि उनके द्वारा उपयोग किए जाने के लिए अतिसंवेदनशील नहीं एक अनुमान प्रक्रिया का उपयोग करके फिट किए गए मॉडल से उनके अवशेषों का उपयोग किया जाता है।
विश्वास है कि आउटलेर्स आवश्यक रूप से एक शास्त्रीय फिट रैंकों के अवशेषों में कहीं बाहर खड़े होंगे, जहां अन्य कठिन से कठिन सांख्यिकीय संख्या में कोई भी नहीं है जैसे कि साक्ष्य की माप के रूप में पी-मूल्यों की व्याख्या करना या पक्षपाती नमूने से आबादी पर आक्षेप करना। सिवाय इसके कि यह अच्छी तरह से अधिक पुराना हो सकता है: गॉस ने खुद को शोर टिप्पणियों से सामान्य वितरण के मापदंडों का अनुमान लगाने के लिए औसत दर्जे का और पागल (शास्त्रीय अर्थ और मानक विचलन के बजाय) जैसे मजबूत अनुमानक के उपयोग की सिफारिश की। अब तक पागल (1) की स्थिरता कारक प्राप्त करने के रूप में।
वास्तविक डेटा के आधार पर एक सरल दृश्य उदाहरण देने के लिए, कुख्यात CYG स्टार डेटा पर विचार करें । यहां लाल रेखा कम से कम वर्ग फिट को दर्शाती है, नीली रेखा एक मजबूत रैखिक प्रतिगमन फिट का उपयोग करके प्राप्त की गई फिट है। यहां पर मजबूत फिट अर्थात् फास्टएलटीएस (2) फिट है, एलएस फिट का एक विकल्प जिसका उपयोग आउटलेर्स का पता लगाने के लिए किया जा सकता है (क्योंकि यह एक अनुमान प्रक्रिया का उपयोग करता है जो यह सुनिश्चित करता है कि अनुमानित गुणांक पर किसी भी अवलोकन का प्रभाव बाध्य है)। इसे पुन: उत्पन्न करने के लिए आर कोड है:
library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)
दिलचस्प बात यह है कि बाईं ओर 4 अवलोकनीय टिप्पणियों में भी एलएस फिट के संबंध में सबसे बड़े अवशिष्ट नहीं हैं और एलएस फिट के अवशिष्ट के क्यूक्यू प्लॉट (या उनसे प्राप्त किसी भी नैदानिक उपकरण जैसे कुक की दूरी या dfbeta) उनमें से किसी को भी समस्याग्रस्त दिखाने में विफल है। यह वास्तव में आदर्श है: एलएस अनुमानों को इस तरह से खींचने के लिए दो से अधिक आउटलेयर (नमूना आकार की परवाह किए बिना) की आवश्यकता नहीं होती है ताकि आउटलेयर एक अवशिष्ट प्लॉट में बाहर खड़े न हों। इसे मास्किंग प्रभाव कहा जाता हैऔर यह अच्छी तरह से प्रलेखित है। शायद CYGstars डेटासेट के बारे में उल्लेखनीय एकमात्र बात यह है कि यह द्विभाजित है (इसलिए हम मजबूत निरीक्षण के परिणाम की पुष्टि करने के लिए दृश्य निरीक्षण का उपयोग कर सकते हैं) और यह कि वास्तव में एक अच्छी व्याख्या है कि बाईं ओर के ये चार अवलोकन इतने असामान्य क्यों हैं।
यह है, btw, नियम से अधिक अपवाद: छोटे नमूने और कुछ चरों को शामिल करने वाले छोटे पायलट अध्ययनों को छोड़कर और जहां सांख्यिकीय विश्लेषण करने वाला व्यक्ति भी डेटा संग्रह प्रक्रिया में शामिल था, मैंने कभी भी ऐसे मामले का अनुभव नहीं किया है जहां पूर्व मान्यताओं के बारे में आउटलेर्स की पहचान वास्तव में सही थी। यह सत्यापित करने के लिए आसान तरीका है। भले ही आउटलेर्स की पहचान एक बाहरी पहचान एल्गोरिथ्म का उपयोग करके की गई हो या शोधकर्ता की आंत की भावना, आउटलेर परिभाषा टिप्पणियों से होते हैं जो एक एलएस फिट से प्राप्त गुणांक पर एक असामान्य उत्तोलन (या 'पुल') होता है। दूसरे शब्दों में, आउटलेर ऐसे अवलोकन हैं जिनके नमूने को हटाने से एलएस फिट को गंभीर रूप से प्रभावित किया जाना चाहिए।
हालाँकि, मैंने व्यक्तिगत रूप से कभी भी इसका अनुभव नहीं किया है, लेकिन साहित्य में कुछ अच्छी तरह से प्रलेखित मामले हैं जहां एक आउटलाइंग डिटेक्शन एल्गोरिथ्म द्वारा आउटलेर के रूप में चिह्नित टिप्पणियों को बाद में सकल त्रुटियों या एक अलग प्रक्रिया द्वारा उत्पन्न पाया गया था। किसी भी मामले में, यह न तो वैज्ञानिक रूप से वारंट है और न ही केवल बाहरी लोगों को हटाने के लिए बुद्धिमान है अगर उन्हें किसी तरह समझा या समझाया जा सकता है। यदि टिप्पणियों का एक छोटा सा आवरण डेटा के मुख्य शरीर से इतनी दूर हो जाता है कि यह अकेले ही एक सांख्यिकीय प्रक्रिया के परिणामों को खींच सकता है, तो यह बुद्धिमान है (और मैं प्राकृतिक जोड़ सकता हूं) इसके अलावा इसका इलाज करना चाहे या नहीं। ऐसा नहीं है कि ये डेटा पॉइंट अन्य आधारों पर भी संदिग्ध हैं।
(1): स्टीफन एम। स्टिगलर, सांख्यिकी का इतिहास: 1900 से पहले अनिश्चितता का मापन देखें।
(२): लार्ज डेटा सेट्स के लिए एलटीएस रिग्रेशन (२००६) पीजे रूससी, के। वैन ड्रिसेन।
(३): हाई-ब्रेकडाउन रोबो मल्टीवेरिएट मेथड्स (2008)। ह्यूबर्ट एम।, रूससी पीजे और वैन एलेस्ट एस। स्रोत: स्टेटिस्ट। विज्ञान। खंड 23, 92-119।