तेजी से रैखिक प्रतिगमन outliers के लिए मजबूत


50

मैं आउटलेर्स के साथ रैखिक डेटा के साथ काम कर रहा हूं, जिनमें से कुछ अनुमानित प्रतिगमन लाइन से 5 मानक विचलन से अधिक हैं। मैं एक रेखीय प्रतिगमन तकनीक की तलाश कर रहा हूं जो इन बिंदुओं के प्रभाव को कम करता है।

अब तक मैंने जो किया वह सभी डेटा के साथ प्रतिगमन रेखा का अनुमान लगाना है, फिर बहुत बड़े वर्गीय अवशेषों के साथ डेटा बिंदु को छोड़ दें (शीर्ष 10% कहें) और उन बिंदुओं के बिना प्रतिगमन को दोहराया।

साहित्य में बहुत सारे संभावित दृष्टिकोण हैं: कम से कम छंटनी वाले वर्ग, मात्रात्मक प्रतिगमन, एम-अनुमानक, आदि। मैं वास्तव में नहीं जानता कि मुझे किस दृष्टिकोण की कोशिश करनी चाहिए, इसलिए मैं सुझावों की तलाश कर रहा हूं। मेरे लिए महत्वपूर्ण यह है कि चुनी गई विधि तेज होनी चाहिए क्योंकि अनुकूलन दिनचर्या के प्रत्येक चरण में मजबूत प्रतिगमन की गणना की जाएगी। आपका बहुत बहुत धन्यवाद!


2
एक विधि जिसका आपने उल्लेख नहीं किया, वह है- स्वतंत्रता की अज्ञात डिग्री के साथ स्टूडेंट- त्रुटियों का उपयोग । हालाँकि, यह उतनी तेजी से नहीं हो सकता है जितनी आपको आवश्यकता है। t

@Procrastinator: (यह आउटलेयर के कॉन्फ़िगरेशन की कल्पना करना आसान है जहां) यह काम नहीं करेगा।
user603

@ user603 यह किसी भी विधि के लिए सही है, कोई रामबाण नहीं है;)। मैं बस एक और तरीका बता रहा था। आपके उत्तर के लिए +1।

3
@ प्रोक्रास्टिनेटर: मैं मानता हूं कि कुछ तरीकों से संदूषण की दर के लिए सभी तरीके विफल हो जाएंगे । और इस संदर्भ में 'विफलता' को मात्रात्मक और आनुभविक रूप से परिभाषित किया जा सकता है। लेकिन विचार अभी भी उन तरीकों का पक्ष लेता है जो केवल संदूषण की उच्च दरों पर विफल होंगे।
user603

4
चूंकि यह एक अनुकूलन दिनचर्या के दौरान बार-बार किया जा रहा है, शायद प्रतिगमन में डेटा (अंततः) धीरे-धीरे बदल रहे हैं। यह आपकी स्थिति के अनुसार अनुकूलित एक एल्गोरिदम का सुझाव देता है: किसी प्रकार के मजबूत प्रतिगमन के साथ शुरू करें, लेकिन अनुकूलन के दौरान छोटे कदम उठाते समय, बस अगले चरण में मान लें कि कोई भी पिछला परिणाम एक स्पष्ट रूप से बना रहेगा। डेटा पर ओएलएस का उपयोग करें, फिर जांचें कि क्या अनुमानात्मक आउटलेर अभी भी बकाया हैं। यदि नहीं, तो मजबूत प्रक्रिया के साथ पुनरारंभ करें, लेकिन यदि ऐसा है - जो अक्सर हो सकता है - तो आपने बहुत सारी गणना को बचा लिया होगा।
whuber

जवाबों:


55

यदि आपके डेटा में एक ही परिणाम है, तो यह आपके द्वारा सुझाए गए दृष्टिकोण (हालांकि पुनरावृत्तियों के बिना) का उपयोग करके मज़बूती से पाया जा सकता है। इसके लिए एक औपचारिक तरीका है

कुक, आर। डेनिस (1979)। रैखिक प्रतिगमन में प्रभावशाली अवलोकनजर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन (अमेरिकन स्टैटिस्टिकल एसोसिएशन) 74 (365): 169-174।

कई वर्षों से एक से अधिक बाहरी होने के लिए, अग्रणी विधि तथाकथित - सेस्टिमेशन परिवार का दृष्टिकोण था। यह अनुमानकर्ताओं का एक विस्तृत परिवार है जिसमें ह्यूबर के अनुमान के प्रतिगमन, कोएन्केर के एल 1 प्रतिगमन के साथ-साथ आपके प्रश्न के लिए टिप्पणी में प्रोकैसिनेटर द्वारा प्रस्तावित दृष्टिकोण शामिल है। उत्तल साथ आकलनकर्ता कार्यों लाभ वे एक नियमित रूप से प्रतिगमन अनुमान के रूप में ही संख्यात्मक जटिलता के बारे में है कि नहीं है। बड़ा नुकसान यह है कि वे केवल मज़बूती से बाहरी लोगों को ढूंढ सकते हैं यदि:एम एम ρMMMρ

  • आपके नमूने की संदूषण दर जहां , डिज़ाइन चर की संख्या है, पी11+pp
  • या यदि आउटलेर्स डिज़ाइन स्पेस (एलिस और मॉर्गेंथेलर (1992)) में नहीं निकल रहे हैं।

आप ( ) पैकेज में प्रतिगमन के ( ) अनुमानों का अच्छा कार्यान्वयन पा सकते हैं । एल Ml1robustbasequantregR

यदि आपके डेटा में से अधिक बाह्य रूप से भी संभावित रूप से डिज़ाइन स्थान पर स्थित है, तो, उन्हें एक संयोजन समस्या को हल करने के लिए राशियों का पता लगाना (समतुल्य अनुमानक का समाधान फिर से- डिकोडिंग / गैर-उत्तल फ़ंक्शन)। एमρnp+1Mρ

पिछले 20 वर्षों में (और विशेष रूप से अंतिम 10) तेज और विश्वसनीय आउटलाइयर डिटेक्शन एल्गोरिदम का एक बड़ा शरीर लगभग इस संयोजन समस्या को हल करने के लिए डिज़ाइन किया गया है। ये अब सबसे लोकप्रिय सांख्यिकीय पैकेज (आर, मैटलैब, एसएएस, स्टैट्टा, ...) में व्यापक रूप से लागू किए गए हैं।

बहरहाल, इन दृष्टिकोणों के साथ आउटलेर्स को खोजने की संख्यात्मक जटिलता आमतौर पर ऑर्डर । अधिकांश एल्गोरिदम का उपयोग मध्य किशोरावस्था में मूल्यों के लिए किया जा सकता है । आमतौर पर ये एल्गोरिदम में रेखीय होते हैं (टिप्पणियों की संख्या) इसलिए अवलोकन की संख्या कोई समस्या नहीं है। एक बड़ा लाभ यह है कि इनमें से अधिकांश एल्गोरिदम शर्मनाक रूप से समानांतर हैं। हाल ही में, विशेष रूप से उच्च आयामी डेटा के लिए डिज़ाइन किए गए कई दृष्टिकोण प्रस्तावित किए गए हैं।पी एनO(2p)pn

यह देखते हुए कि आपने अपने प्रश्न में निर्दिष्ट नहीं किया है , मैं केस लिए कुछ संदर्भों को सूचीबद्ध करूंगा । यहाँ कुछ कागजात हैं जो समीक्षा लेखों की इन श्रृंखलाओं में अधिक विवरण में इसकी व्याख्या करते हैं:पी < २०pp<20

रूससीव, पीजे और वैन ज़ोमरेन बीसी (1990)। अनमास्किंग मल्टीवेरेट आउटलेयर और लीवरेज पॉइंट्सजर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन , वॉल्यूम। 85, नंबर 411, पीपी। 633-639।

रूसेवु, पीजे और वैन ड्रिस्सेन, के। (2006)। बड़े डेटा सेट के लिए कम्प्यूटिंग एलटीएस प्रतिगमनडाटा माइनिंग एंड नॉलेज डिस्कवरी आर्काइव वॉल्यूम 12 अंक 1, पृष्ठ 29 - 45।

ह्यूबर्ट, एम।, रूससी, पीजे और वैन एलेस्ट, एस (2008)। हाई-ब्रेकडाउन रॉबट मल्टीवीरेट मेथड्ससांख्यिकीय विज्ञान , वॉल्यूम। 23, नंबर 1, 92–119

एलिस एसपी और मॉर्गेंथेलर एस (1992)। लीवर रिग्रेशन में लीवरेज और ब्रेकडाउन। जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन , वॉल्यूम। 87, नंबर 417, पीपी 143-148

बाहरी पहचान की समस्या पर एक हालिया संदर्भ पुस्तक है:

मैरोना आरए, मार्टिन आरडी और योहाई वीजे (2006)। मजबूत सांख्यिकी: सिद्धांत और तरीके । विली, न्यूयॉर्क।

ये (और इन के कई अन्य रूप) तरीके पैकेज में (अन्य के बीच) लागू किए जाते हैं ।robustbase R


4
अब यह एक महान जवाब है!
पीटर Flom - मोनिका फिर से बहाल करें

बहुत बहुत धन्यवाद user603! मेरी समस्या में और डिजाइन स्पेस में कोई आउटलेर नहीं हैं (क्योंकि व्याख्यात्मक चर सामान्य वितरण से सिम्युलेटेड हैं)। तो शायद मैं एम-आकलनकर्ता के साथ कोशिश कर सकता हूं? किसी भी स्थिति में आपके द्वारा दिए गए सभी अन्य संदर्भ बहुत उपयोगी होंगे, जब मैं अपने एल्गोरिथ्म के अधिक जटिल अनुप्रयोगों ( >> 10) पर काम करना शुरू कर दूंगा। पीp<10p
मट्टियो फासिओलो

2
@ जुगरथा: उस मामले में (डिज़ाइन स्पेस और में कोई बाहरी स्थिति नहीं ) अनुमानक वास्तव में पसंदीदा समाधान हैं। रेनबेस पैकेज में 'lmrob..M..fit' फ़ंक्शन पर विचार करें, MASS पैकेज में 'rlm' फ़ंक्शन या क्वांटग्राम पैकेज में l1 प्रतिगमन। मैं अभी भी कुछ मामले में एलटीएस-प्रतिगमन को चलाऊंगा और परिणामों की तुलना करूंगा, क्योंकि वे अधिक आउटलेर्स का सामना कर सकते हैं। मैं इसे सिर्फ इस बात की जांच के रूप में करूंगा कि क्या संदूषण दर आपके संदेह से अधिक नहीं है। एमp<10M
user603

1
"एक बड़ा लाभ यह है कि इनमें से अधिकांश एल्गोरिदम शर्मनाक रूप से समानांतर हैं।" मुझे शब्दांकन पसंद है। ;)
मतीन उलहाक

1
@ मातेन, ठीक है, यह सब के बाद कला का शब्द है । :)
JM

19

साधारण प्रतिगमन (एकल x) के लिए, थल-सेन लाइन के लिए y- आउटलेर्स को मजबूती और प्रभावशाली बिंदुओं के साथ-साथ ढलान के लिए एलएस की तुलना में सामान्य रूप से अच्छी दक्षता (सामान्य रूप से) के लिए कुछ कहा जाना है। ढलान के लिए ब्रेकडाउन बिंदु लगभग 30% है; जब तक अवरोधन (लोगों द्वारा उपयोग किए जाने वाले संभावित अवरोधों की एक किस्म है) का कम टूटना नहीं होता है, पूरी प्रक्रिया संदूषण के एक बड़े पैमाने पर काफी अच्छी तरह से सामना करती है।

इसकी गति ऐसी लग सकती है जैसे कि यह खराब होगी - माध्यिका के ढलानों को दिखता है, यहां तक ​​कि माध्यिका के साथ भी - लेकिन मेरा स्मरण यह है कि इसे और अधिक आसानी से किया जा सकता है अगर गति वास्तव में एक मुद्दा है ( , मेरा मानना ​​है)(n2)O(n2)O(n)O(nlogn)

Edit: user603 ने L1 रिग्रेशन पर Theil रिग्रेशन का लाभ मांगा। जवाब दूसरी बात है जिसका मैंने उल्लेख किया है - प्रभावशाली बिंदु:

Theil_vs_L1

लाल रेखा फिट ( पैकेज में फ़ंक्शन से ) है। हरी एक थिल ढलान के साथ एक फिट है। यह सब लेता है एक्स-मूल्य में एक एकल टाइपो - जैसे 53 के बजाय 533 टाइप करना - और इस तरह की बात हो सकती है। इसलिए फिट एक्स-स्पेस में एक एकल टाइपो के लिए मजबूत नहीं है।L1rqquantregL1


यह वास्तव में समय में गणना की जा सकती है । क्या आप इस बात पर विस्तार से सकते हैं कि (एकल x मामले में) TS अनुमानक का क्या कहना है, प्रतिगमन? nlognl1
user603

1
@ user603 संपादन देखें।
Glen_b

(+1) संपादन के लिए धन्यवाद। इस सुविधा को इंगित करना महत्वपूर्ण है।
user603

1
और क्या एक एमएम-अनुमान से अधिक फायदा है, जैसे कि आर पैकेज रिस्टबेस या (यहां तक ​​कि आधार आर '} आरएलएम (*, ... विधि = "एमएम") पैकेज एमएएस से lmrob () के रूप में। इनका पूर्ण विराम बिंदु (~ 50%) है और संभवतः सामान्य रूप से और भी अधिक कुशल हैं।
मार्टिन मचलर

1
@ MartinMächler ऐसा लगता है कि आप एक दावे के खिलाफ बहस कर रहे हैं जो मैंने वहां नहीं किया है। यदि आप एक उत्तर देना चाहते हैं जिसमें अन्य उच्च-ब्रेकडाउन मजबूत अनुमानकों की तुलना शामिल है, विशेष रूप से वे जो ओपी के स्तर पर किसी के लिए समझने के लिए लगभग सरल हैं, तो मैं इसे पढ़ने के लिए उत्सुक हूं।
ग्लेन_ बी

12

क्या आपने RANSAC (विकिपीडिया) को देखा है ?

यह एक उचित रैखिक मॉडल की गणना करने पर भी अच्छा होना चाहिए, जब बहुत सारे आउटलेयर और शोर हों, क्योंकि यह इस धारणा पर बनाया गया है कि डेटा का केवल एक हिस्सा वास्तव में तंत्र से संबंधित होगा।


हाँ, लेकिन एक सरल री-वेटिंग स्टेप जोड़ने से एक अनुमानक (LTS) मिलता है जो समान रूप से मजबूत है और इतना अधिक स्थिर और सांख्यिकीय रूप से कुशल है। क्यों नहीं करते?
user603

1

मैंने पाया दंडित त्रुटि प्रतिगमन सर्वोत्तम है। आप इसे पुनरावृत्त और पुन: उपयोग के नमूनों का भी उपयोग कर सकते हैं, जो समाधान के अनुरूप नहीं हैं। मूल विचार त्रुटियों के साथ अपने मॉडल को बढ़ाने के लिए है: जहां अज्ञात त्रुटि वेक्टर है। अब आप पर प्रतिगमन करते । दिलचस्प है कि आप निश्चित रूप से इसके लिए "फ्यूज्ड लासो" का उपयोग कर सकते हैं, जब आप अपने माप की निश्चितता का अनुमान पहले से लगा सकते हैं और इसे और नए हलके भिन्न कार्य को हल करने के लिए कर सकते हैं l1

y=Ax+e
e
yAxe22+λe1
W=diag(wi)
yAxe22+λWe1

अधिक जानकारी यहां पाई जा सकती है: http://statweb.stanford.edu/~candes/papers/GrossErrorsSmallErrors.pdf


क्या आपने कोशिश की है कि उदाहरण के लिए Glen_b (यदि आप उसके बगल में दूसरी जगह जोड़ते हैं जहां उसने अपना स्थान रखा है) या मैंने पोस्ट किया है?
user603

@ user603 नहीं, मैंने अभी इसे कैमरे की छवियों से 3 डी मॉडलिंग के लिए अधिक व्यावहारिक मामलों पर लागू किया है। वहां इसने बहुत मदद की। हालांकि, एक सबक सीखा गया है: यदि आपके पास अपने आउटलेर्स को खत्म करने की कई संभावनाएं हैं, तो उनका उपयोग करें।
मोजोव्स्की
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.