यदि आपके डेटा में एक ही परिणाम है, तो यह आपके द्वारा सुझाए गए दृष्टिकोण (हालांकि पुनरावृत्तियों के बिना) का उपयोग करके मज़बूती से पाया जा सकता है। इसके लिए एक औपचारिक तरीका है
कुक, आर। डेनिस (1979)। रैखिक प्रतिगमन में प्रभावशाली अवलोकन । जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन (अमेरिकन स्टैटिस्टिकल एसोसिएशन) 74 (365): 169-174।
कई वर्षों से एक से अधिक बाहरी होने के लिए, अग्रणी विधि तथाकथित - सेस्टिमेशन परिवार का दृष्टिकोण था। यह अनुमानकर्ताओं का एक विस्तृत परिवार है जिसमें ह्यूबर के अनुमान के प्रतिगमन, कोएन्केर के एल 1 प्रतिगमन के साथ-साथ आपके प्रश्न के लिए टिप्पणी में प्रोकैसिनेटर द्वारा प्रस्तावित दृष्टिकोण शामिल है। उत्तल साथ आकलनकर्ता कार्यों लाभ वे एक नियमित रूप से प्रतिगमन अनुमान के रूप में ही संख्यात्मक जटिलता के बारे में है कि नहीं है। बड़ा नुकसान यह है कि वे केवल मज़बूती से बाहरी लोगों को ढूंढ सकते हैं यदि:एम एम ρMMMρ
- आपके नमूने की संदूषण दर जहां , डिज़ाइन चर की संख्या है, पी11+pp
- या यदि आउटलेर्स डिज़ाइन स्पेस (एलिस और मॉर्गेंथेलर (1992)) में नहीं निकल रहे हैं।
आप ( ) पैकेज में प्रतिगमन के ( ) अनुमानों का अच्छा कार्यान्वयन पा सकते हैं । एल १Ml1robustbase
quantreg
R
यदि आपके डेटा में से अधिक बाह्य रूप से भी संभावित रूप से डिज़ाइन स्थान पर स्थित है, तो, उन्हें एक संयोजन समस्या को हल करने के लिए राशियों का पता लगाना (समतुल्य अनुमानक का समाधान फिर से- डिकोडिंग / गैर-उत्तल फ़ंक्शन)। एमρ⌊np+1⌋Mρ
पिछले 20 वर्षों में (और विशेष रूप से अंतिम 10) तेज और विश्वसनीय आउटलाइयर डिटेक्शन एल्गोरिदम का एक बड़ा शरीर लगभग इस संयोजन समस्या को हल करने के लिए डिज़ाइन किया गया है। ये अब सबसे लोकप्रिय सांख्यिकीय पैकेज (आर, मैटलैब, एसएएस, स्टैट्टा, ...) में व्यापक रूप से लागू किए गए हैं।
बहरहाल, इन दृष्टिकोणों के साथ आउटलेर्स को खोजने की संख्यात्मक जटिलता आमतौर पर ऑर्डर । अधिकांश एल्गोरिदम का उपयोग मध्य किशोरावस्था में मूल्यों के लिए किया जा सकता है । आमतौर पर ये एल्गोरिदम में रेखीय होते हैं (टिप्पणियों की संख्या) इसलिए अवलोकन की संख्या कोई समस्या नहीं है। एक बड़ा लाभ यह है कि इनमें से अधिकांश एल्गोरिदम शर्मनाक रूप से समानांतर हैं। हाल ही में, विशेष रूप से उच्च आयामी डेटा के लिए डिज़ाइन किए गए कई दृष्टिकोण प्रस्तावित किए गए हैं।पी एनO(2p)pn
यह देखते हुए कि आपने अपने प्रश्न में निर्दिष्ट नहीं किया है , मैं केस लिए कुछ संदर्भों को सूचीबद्ध करूंगा । यहाँ कुछ कागजात हैं जो समीक्षा लेखों की इन श्रृंखलाओं में अधिक विवरण में इसकी व्याख्या करते हैं:पी < २०pp<20
रूससीव, पीजे और वैन ज़ोमरेन बीसी (1990)। अनमास्किंग मल्टीवेरेट आउटलेयर और लीवरेज पॉइंट्स । जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन , वॉल्यूम। 85, नंबर 411, पीपी। 633-639।
रूसेवु, पीजे और वैन ड्रिस्सेन, के। (2006)। बड़े डेटा सेट के लिए कम्प्यूटिंग एलटीएस प्रतिगमन । डाटा माइनिंग एंड नॉलेज डिस्कवरी आर्काइव वॉल्यूम 12 अंक 1, पृष्ठ 29 - 45।
ह्यूबर्ट, एम।, रूससी, पीजे और वैन एलेस्ट, एस (2008)। हाई-ब्रेकडाउन रॉबट मल्टीवीरेट मेथड्स । सांख्यिकीय विज्ञान , वॉल्यूम। 23, नंबर 1, 92–119
एलिस एसपी और मॉर्गेंथेलर एस (1992)। लीवर रिग्रेशन में लीवरेज और ब्रेकडाउन। जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन , वॉल्यूम। 87, नंबर 417, पीपी 143-148
बाहरी पहचान की समस्या पर एक हालिया संदर्भ पुस्तक है:
मैरोना आरए, मार्टिन आरडी और योहाई वीजे (2006)। मजबूत सांख्यिकी: सिद्धांत और तरीके । विली, न्यूयॉर्क।
ये (और इन के कई अन्य रूप) तरीके पैकेज में (अन्य के बीच) लागू किए जाते हैं ।robustbase
R