रेखीय प्रतिगमन विश्लेषण में आउटलेयर से कैसे निपटा जाना चाहिए?


73

अक्सर बार एक सांख्यिकीय विश्लेषक को एक सेट डेटासेट दिया जाता है और रैखिक प्रतिगमन जैसी तकनीक का उपयोग करके एक मॉडल को फिट करने के लिए कहा जाता है। बहुत बार डाटासेट "ओह, हाँ, हमने कुछ डेटा बिंदुओं को इकट्ठा करने में गड़बड़ी की - जो आप करते हैं" के समान अस्वीकरण के साथ है।

यह स्थिति प्रतिगमन फिट की ओर जाता है जो बाहरी डेटा की उपस्थिति से भारी रूप से प्रभावित होता है जो गलत डेटा हो सकता है। निम्नलिखित को देखते हुए:

  • यह एक वैज्ञानिक और नैतिक दोनों दृष्टिकोण से खतरनाक है, क्योंकि इसके अलावा डेटा को फेंकने के लिए "फिट दिखने में खराब होता है"।

  • वास्तविक जीवन में, जिन लोगों ने डेटा एकत्र किया है, वे अक्सर "इस डेटा सेट को बनाते समय, जैसे प्रश्नों के उत्तर देने के लिए उपलब्ध नहीं होते हैं, आपने किन बिंदुओं पर गड़बड़ की है, वास्तव में?"

रैखिक प्रतिगमन विश्लेषण में आउटलेर्स को बाहर करने के लिए आधार के रूप में अंगूठे के सांख्यिकीय परीक्षणों या नियमों का उपयोग किया जा सकता है?

क्या मल्टीलाइनर रिग्रेशन के लिए कोई विशेष विचार हैं?


जवाबों:


33

आउटलेयर को बाहर करने के बजाय, आप प्रतिगमन की एक मजबूत विधि का उपयोग कर सकते हैं। उदाहरण के लिए R में, rlm()MASS पैकेज से फ़ंक्शन का उपयोग किया जा सकता है lm()। अनुमान की विधि आउटलेर्स के लिए अधिक या कम मजबूत होने के लिए तैयार की जा सकती है।


यदि आरएलएम () फ़ंक्शन का उपयोग कर रहा हूं, तो मुझे लगता है कि गुणांक और उनके टी-टेस्ट उत्पन्न होते हैं। लेकिन मैं यहां से एफ-टेस्ट, आर-स्क्वायर मान कैसे प्राप्त कर सकता हूं? मुझे लगता है कि अगर मैं सही हूं तो मैं इन एफ-टेस्ट और आर स्क्वायर मानों को सरल 'एलएम' सारांश परिणामों से नहीं ला सकता हूं।
एरिक

1
एक मजबूत प्रतिगमन के लिए, एफ परीक्षण के पीछे की धारणाएं अब संतुष्ट नहीं हैं, और आर ^ 2 को कई तरीकों से परिभाषित किया जा सकता है जो अब अधिक समकक्ष नहीं हैं। स्टैट के लिए इस पर कुछ चर्चा के लिए देखें आँकड़े .idre.ucla.edu/stata/faq/ …।
रॉब हयंडमैन


लेकिन मुझे sfsmisc पैकेज से f.robftest नाम की कमांड मिली है, जो f- परीक्षा परिणाम देती है। क्या मैं आरएलएम के लिए एफ-परीक्षण के आंकड़ों को परिभाषित करने के लिए इस परिणाम का उपयोग कर सकता हूं? इसके अलावा, मैं आर वर्ग गणितीय सूत्र में मानों को इनपुट करके आर वर्ग प्राप्त करता हूं जैसे कि 1 - योग (अवशिष्ट (आरएलएम (y ~ x)) ^ 2) / राशि ((y- माध्य (y)) ^ 2) । गुणांक के महत्व की जांच करने के लिए टी-परीक्षण मूल्यों के लिए, मुझे सारांश (आरएलएम (y ~ x)) से टी-परीक्षण के मूल्य मिलते हैं जो मैं 95% आत्मविश्वास के स्तर से टी-मूल्यों के साथ तुलना करता हूं। क्या मैं इन विधियों का उपयोग कर सकता हूं?
एरिक

22

कभी-कभी आउटलेयर खराब डेटा होते हैं, और उन्हें बाहर रखा जाना चाहिए, जैसे कि टाइपोस। कभी-कभी वे वेन ग्रेट्स्की या माइकल जॉर्डन होते हैं, और उन्हें रखा जाना चाहिए।

बाह्य पहचान विधियों में शामिल हैं:

Univariate -> बॉक्सप्लॉट। 1.5 गुना अंतर-चतुर्थक सीमा के बाहर एक बाहरी है।

Bivariate -> आत्मविश्वास के साथ बिखराव। बाहर का कहना है, 95% आत्मविश्वास दीर्घवृत्त एक बाहरी है।

मल्टीवेरेट -> महालनोबिस डी 2 दूरी

उन टिप्पणियों को आउटलेर के रूप में चिह्नित करें।

यह देखने के लिए कि क्या कोई व्यवस्थित पैटर्न है, एक लॉजिस्टिक रिग्रेशन (Y = IsOutlier पर) चलाएं।

उन लोगों को हटा दें जिन्हें आप प्रदर्शित कर सकते हैं कि वे किसी भी उप-जनसंख्या के प्रतिनिधि नहीं हैं।


और अगर आपके पास अभी भी आउटलेयर हैं, तो रैखिक की तुलना में एक अलग मॉडल का उपयोग करने पर विचार करें। उदाहरण के लिए, यदि आप व्यवहार की तरह पावर-लॉ के साथ एक मॉडल का उपयोग करते हैं, तो माइकल जॉर्डन अब बाहरी नहीं हैं (उन्हें समायोजित करने के लिए मॉडल की क्षमता के संदर्भ में)।
drevicko

1
यहां जो कुछ भी कहा गया है, उनमें से अधिकांश से सहमत हूं, लेकिन मैं अतिरिक्त सावधानी जोड़ना चाहूंगा कि " 1.5 गुना अंतर-चतुर्थक सीमा के बाहर एक बाहरी है " एक सम्मेलन है , किसी भी सैद्धांतिक नींव के साथ एक नियम नहीं है। इसका उपयोग डेटा बिंदुओं को बाहर करने के औचित्य के रूप में नहीं किया जाना चाहिए।
जिनकी बाज़ार

20

मुझे लगता है कि आउटलेर्स को बाहर करने के लिए कुछ कहा जाना चाहिए। एक प्रतिगमन रेखा को डेटा को संक्षेप में देना चाहिए। उत्तोलन के कारण आपके पास एक ऐसी स्थिति हो सकती है जहां आपके 1% डेटा बिंदु ढलान को 50% तक प्रभावित करते हैं।

यह केवल नैतिक और वैज्ञानिक दृष्टिकोण से खतरनाक है यदि आप किसी को नहीं बताते हैं कि आपने आउटलेर्स को बाहर रखा है। जब तक आप उन्हें इंगित करते हैं आप कह सकते हैं:

"यह प्रतिगमन रेखा अधिकांश डेटा के लिए बहुत अच्छी तरह से फिट बैठती है। समय का 1% एक मूल्य के साथ आएगा जो इस प्रवृत्ति को फिट नहीं करता है, लेकिन हे, यह एक पागल दुनिया है, कोई भी प्रणाली परिपूर्ण नहीं है"


1
"अरे, यह एक पागल दुनिया है, कोई भी सिस्टम सही नहीं है" +1 मेरे दोस्त के लिए! :)
बार्टार्टार्टनस

1
हालांकि अन्य मॉडलों पर विचार करें। अगर दुनिया "आउटलेर्स" से भरी हुई है जो वास्तविक डेटा थे, जिसके परिणामस्वरूप वास्तव में कुछ महत्वपूर्ण भविष्यवाणी करने में विफल रहा। कई प्राकृतिक प्रक्रियाओं में दुर्लभ चरम घटनाओं के साथ व्यवहार की तरह शक्ति-कानून हैं। रैखिक मॉडल ऐसे डेटा को फिट करने के लिए लग सकते हैं (यद्यपि बहुत अच्छी तरह से नहीं), लेकिन एक का उपयोग करके और "आउटलेयर" को हटाने का मतलब उन चरम घटनाओं को याद करना है, जिनके बारे में जानना आमतौर पर महत्वपूर्ण है!
drevicko

10

Sharpie,

आपके प्रश्न का शाब्दिक अर्थ लेते हुए, मैं यह दलील दूंगा कि कोई सांख्यिकीय परीक्षण या अंगूठे के नियम का उपयोग रेखीय प्रतिगमन विश्लेषण में आउटलेयर को बाहर करने के लिए आधार के रूप में नहीं किया जा सकता है (जैसा कि यह निर्धारित करने के लिए विरोध किया गया है कि क्या कोई अवलोकन एक रूपरेखा नहीं है)। यह विषय-क्षेत्र के ज्ञान से आना चाहिए।

मुझे लगता है कि शुरू करने का सबसे अच्छा तरीका यह पूछना है कि क्या आउटलेयर भी समझ में आता है, विशेष रूप से आपके द्वारा एकत्र किए गए अन्य चर। उदाहरण के लिए, क्या यह वास्तव में उचित है कि आपके अध्ययन में 600 पाउंड की महिला है, जो विभिन्न खेल चोट क्लीनिकों से भर्ती हुई है? या, यह अजीब नहीं है कि एक व्यक्ति 55 साल या पेशेवर अनुभव को सूचीबद्ध कर रहा है, जब वे केवल 60 वर्ष के हैं? इत्यादि। उम्मीद है, आपके पास या तो उन्हें फेंकने या डेटा कंपाइलरों को आपके लिए रिकॉर्ड्स को दोबारा जांचने के लिए एक उचित आधार मिलेगा।

मैं मजबूत प्रतिगमन विधियों और गिराई गई टिप्पणियों की पारदर्शी रिपोर्टिंग का भी सुझाव दूंगा, जैसा कि क्रमशः रॉब और क्रिस ने सुझाव दिया है।

आशा है कि इस मदद करता है, ब्रेंडन


6

मैंने nonlinear प्रतिगमन में outliers की पहचान करने के लिए एक विधि प्रकाशित की है, और इसका उपयोग एक रैखिक मॉडल फिटिंग करते समय भी किया जा सकता है।

एचजे मोटुलस्की और आरई ब्राउन। नॉनलाइन रिग्रेशन के साथ डेटा फिट करने पर आउटलेर्स का पता लगाना - मजबूत नॉनलाइन रिग्रेशन और गलत खोज दर के आधार पर एक नई विधि । बीएमसी जैव सूचना विज्ञान 2006, 7: 123


5

दो सांख्यिकीय दूरी के उपाय हैं जो विशेष रूप से आउटलेर्स का पता लगाने के लिए तैयार किए जाते हैं और फिर यह विचार करते हुए कि क्या इस तरह के आउटलेयर को आपके रैखिक प्रतिगमन से हटा दिया जाना चाहिए।

पहले वाले कुक की दूरी है। आप विकिपीडिया: http://en.wikipedia.org/wiki/Cook%27s_distance पर इसकी बहुत अच्छी व्याख्या पा सकते हैं ।

कुक की दूरी उतनी ही अधिक प्रभावशाली (प्रतिगमन गुणांक पर प्रभाव) अवलोकन है। अवलोकन को हटाने पर विचार करने के लिए विशिष्ट कट-ऑफ बिंदु एक कुक की दूरी = 4 / n (n नमूना आकार है)।

दूसरा एक DFFITS है जो विकिपीडिया: http://en.wikipedia.org/wiki/DFFITS द्वारा भी अच्छी तरह से कवर किया गया है । अवलोकन को हटाने पर विचार करने के लिए विशिष्ट कट-ऑफ़ बिंदु 2 गुना sqrt (k / n) का DFFITS मान है जहाँ k, चर की संख्या और n नमूना आकार है।

दोनों उपाय आमतौर पर आपको समान अवलोकन चयन के लिए समान परिणाम देते हैं।


3

कचरा अंदर कचरा बाहर....

रैखिक प्रतिगमन का पूरा लाभ प्राप्त करने में निहित है कि शोर एक सामान्य वितरण का अनुसरण करता है। आदर्श रूप से आपके पास ज्यादातर डेटा और थोड़ा शोर है .... ज्यादातर शोर और थोड़ा डेटा नहीं है। आप अवशिष्ट को देखकर रैखिक फिट होने के बाद अवशिष्ट की सामान्यता के लिए परीक्षण कर सकते हैं। आप स्पष्ट, चमकदार त्रुटियों के लिए रैखिक फिट होने से पहले इनपुट डेटा को भी फ़िल्टर कर सकते हैं।

यहां कचरा इनपुट डेटा में कुछ प्रकार के शोर हैं जो आम तौर पर एक सामान्य वितरण में फिट नहीं होते हैं:

  • हाथ से दर्ज किए गए डेटा के साथ लापता या जोड़े गए अंक (10 या अधिक के कारक द्वारा बंद)
  • गलत या गलत तरीके से परिवर्तित इकाइयाँ (ग्राम बनाम किलो बनाम पाउंड; मीटर, पैर, मील, किमी), संभवतः कई डेटा सेटों को मर्ज करने से (नोट: मार्स ऑर्बिटर को इस तरह से खो जाने के बारे में सोचा गया था, इसलिए नासा रॉकेट वैज्ञानिक भी इसे बना सकते हैं गलती)
  • "गैर लागू नहीं" या "कॉलम अनुपलब्ध" जैसे कुछ गैर-संख्यात्मक का अर्थ करने के लिए 0, -1, -99999 या 99999 जैसे कोड का उपयोग और इसे वैध डेटा के साथ एक रैखिक मॉडल में डंप करना

प्रत्येक कॉलम के लिए "वैध डेटा" क्या है, इसके लिए एक युक्ति लिखना आपको अमान्य डेटा को टैग करने में मदद कर सकता है। उदाहरण के लिए, सेमी में एक व्यक्ति की ऊंचाई एक सीमा में होनी चाहिए, कहते हैं, 100-300 सेमी। यदि आप ऊंचाई के लिए 1.8 पाते हैं तो एक टाइपो है, और जब आप मान सकते हैं कि यह 1.8 मीटर था और इसे 180 में बदल दिया - मैं कहूंगा कि इसे आमतौर पर इसे बाहर फेंकना और जितना संभव हो उतना फ़िल्टर करने के लिए दस्तावेज़ के लिए सबसे अच्छा है।


1

एक रेखीय प्रतिगमन के लिए आप बार-बार की सीधी रेखा के माध्यिका का उपयोग कर सकते हैं।


0

सांख्यिकीय परीक्षणों को बहिष्करण के लिए एक आधार के रूप में इस्तेमाल किया जाना है: - मानकीकृत अवशिष्ट - उत्तोलन के आँकड़े - कुक की दूरी, जो ऊपर दो का एक संयोजन है।

अनुभव से, बहिष्करण गलत डेटा प्रविष्टि के उदाहरणों तक सीमित होना चाहिए। लीनियर रिग्रेशन मॉडल में आउटलेयर रीवाइटिंग करना एक बहुत अच्छा समझौता तरीका है। आर में इस के आवेदन रोब द्वारा की पेशकश की है। एक महान उदाहरण यहाँ है: http://www.ats.ucla.edu/stat/r/dae/rreg.htm

यदि बहिष्करण आवश्यक है, तो 'अंगूठे का एक नियम' Dfbeta आँकड़ों से संबंधित होता है (जब आउटर को हटा दिया जाता है, तो अनुमान में परिवर्तन होता है), जैसे कि यदि DfBeta आँकड़ा का निरपेक्ष मान 2 / sqrt से अधिक हो (n) तो वह पुष्टिकरण को हटा देता है बाहर का।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.