क्या यह प्रतिगमन मॉडल को बेहतर बनाने के लिए मीन एब्सोल्यूट एरर के बॉक्सप्लेट के आधार पर आउटलेयर को छोड़ने के लिए धोखा दे रहा है


15

मेरे पास एक भविष्यवाणी मॉडल है जो चार तरीकों से परीक्षण किया गया है जैसा कि आप नीचे दिए गए बॉक्सप्लेट में देख सकते हैं। मॉडल की भविष्यवाणी करने वाली विशेषता 0-8 की सीमा में है।

आप देख सकते हैं कि सभी विधियों द्वारा इंगित एक ऊपरी-बाउंड आउटलाइयर और तीन निचले-बाउंड आउटलेयर हैं । मुझे आश्चर्य है कि क्या इन उदाहरणों को डेटा से निकालना उचित है? या यह भविष्यवाणी मॉडल को बेहतर बनाने के लिए एक तरह का धोखा है?

यहाँ छवि विवरण दर्ज करें


1
(1) मैं चार तरीकों के लिए परिणाम देखता हूं, तीन नहीं। (२) भविष्यवाणी की क्षमताओं के सबूतों को हटाने से संभवतः तरीकों में सुधार कैसे हो सकता है?
whuber

@ वाउचर (1) तय है। 2 (2) के लिए, तो आप का अर्थ है एक ऐसी मिसाल को हटाना जो बहुत ही अशुभ भविष्यवाणी है, कुल मिलाकर बेहतर भविष्यवाणी प्रदर्शन नहीं होगा (इसका मतलब था कि मैं "सुधार मॉडल" के साथ था ?
renakre

7
जो भी कारण (4 कम से कम अच्छी तरह से फिटिंग अंक) के लिए एक अवलोकन को हटाने के लिए खुद को एक मॉडल पसंद है। आपको इस दूसरी मॉडल पसंद के पूर्वानुमान के प्रदर्शन का भी मूल्यांकन करना चाहिए । मुख्य बिंदु समग्र भविष्यवाणी पद्धति के प्रदर्शन का मूल्यांकन करने के लिए उपयोग किए जाने वाले अंतिम परीक्षण सेट की अखंडता को बनाए रखने के लिए मुख्य बिंदु है। यह आपके प्रश्न से स्पष्ट नहीं है कि क्या आप बुरी तरह से अनुमानित डेटा को हटाने के बाद मॉडल (लासो आदि) को फिर से चालू करने की योजना बनाते हैं।
user603

2
एक पक्ष की टिप्पणी के रूप में, मैं कहूंगा कि कुछ समय में महान मूल्य आउटलेर्स में छिपा हुआ है और यह उन पर ध्यान देने योग्य है।
दार अतरैया

@DrorAtariah थैंक्स ड्रॉर, मैं सहमत हूं। चरम मामले मूल्यवान हैं।
रेनकेरे

जवाबों:


22

प्रतिगमन मॉडल में सुधार करने के लिए टिप्पणियों को हटाने के लिए यह लगभग हमेशा एक धोखा है । आपको केवल टिप्पणियों को छोड़ देना चाहिए जब आप वास्तव में सोचते हैं कि ये वास्तव में आउटलेयर हैं।

उदाहरण के लिए, आपके पास अपनी स्मार्ट घड़ी से जुड़ी हृदय गति मॉनिटर से समय श्रृंखला है। यदि आप श्रृंखला पर एक नज़र डालते हैं, तो यह देखना आसान है कि 300 जीबी की तरह रीडिंग के साथ गलत अवलोकन होंगे। इन्हें हटा दिया जाना चाहिए, लेकिन इसलिए नहीं कि आप मॉडल को सुधारना चाहते हैं (जो भी इसका मतलब है)। वे पढ़ने में गलतियाँ करते हैं जिनका आपके दिल की दर से कोई लेना-देना नहीं है।

डेटा के साथ त्रुटियों का सहसंबंध है, हालांकि एक बात सावधान रहना चाहिए। मेरे उदाहरण में यह तर्क दिया जा सकता है कि आपके पास त्रुटियां हैं जब हृदय गति पर नज़र रखने को ओ जंपिंग जैसे अभ्यास के दौरान विस्थापित किया जाता है। जो इन त्रुटियों को हार्ट रेट के साथ सहसंबद्ध बना देगा। इस मामले में, इन आउटलेर और त्रुटियों को हटाने में सावधानी बरतनी चाहिए, क्योंकि वे यादृच्छिक नहीं हैं

मैं आपको एक दिया उदाहरण देता हूं जब आउटलेर्स को नहीं निकालना है । मान लीजिए कि आप एक स्प्रिंग पर भार की गति को माप रहे हैं। वजन है, तो शक्ति के लिए छोटे रिश्तेदार वजन के है, तो आप देखेंगे कि हूक के नियम को बहुत अच्छी तरह से काम करता है: जहां एफ बल, है कश्मीर

F=kΔx,
Fk - तनाव गुणांक और वजन की स्थिति है ।Δx

अब यदि आप बहुत भारी वजन डालते हैं या वजन को बहुत अधिक विस्थापित करते हैं, तो आप विचलन देखना शुरू कर देंगे: बड़े विस्थापन पर Δx रैखिक मॉडल को बेहतर बनाने के को । यह एक अच्छा विचार नहीं होगा, क्योंकि मॉडल बहुत अच्छी तरह से काम नहीं कर रहा है क्योंकि हुक का कानून केवल लगभग सही है।

अद्यतन आपके मामले में मैं उन डेटा बिंदुओं को खींचने और उन्हें करीब से देखने का सुझाव दूंगा। क्या यह लैब इंस्ट्रूमेंट फेल हो सकता है? बाहरी हस्तक्षेप? नमूना दोष? आदि।

अगला यह पहचानने का प्रयास करें कि क्या आप इन उदाहरणों के प्रेस्नेप को इस बात से सहसंबद्ध कर सकते हैं कि आप मेरे द्वारा दिए गए उदाहरण में क्या मापते हैं। यदि सहसंबंध है तो इसके बारे में जाने का कोई सरल तरीका नहीं है। यदि कोई संबंध नहीं है, तो आप बाहरी लोगों को हटा सकते हैं


2
It is always a cheating to remove outliers to improve a regression model. क्या आप स्पलाइन रिग्रेशन को धोखा मानते हैं ? FWIW, यह [स्थानीय] प्रतिगमन मॉडल को सुधारने के लिए वज़न कम करता है ~
user603

1
मैं असहमत हूँ "यह एक प्रतिगमन मॉडल को बेहतर बनाने के लिए बाहरी लोगों को हटाने के लिए हमेशा एक धोखा है।" प्रतिगमन निदान करने के लिए कई उपकरण हैं, और उस के लक्ष्य का पता लगाने और मॉडल को "हटाने" और मॉडल को परिष्कृत करना है।
हायतौ डू

6
@ hxd1011 ग्रुब्स जैसे उपकरण स्वतः आउटलेर्स को हटाने के लिए नहीं हैं। वे केवल संकेत देते हैं कि कोई परिणाम हो सकता है, तो आप यह तय करते हैं कि क्या यह वास्तव में एक रूपरेखा है। यह स्वचालित रूप से आउटलेर्स को हटाकर फिट डायग्नोस्टिक्स में सुधार करने के लिए एक बहुत ही खतरनाक दृष्टिकोण है। आपको उन्हें केस केस का विश्लेषण करना होगा।
अक्कल

2
ठीक है, मैं इसे लेता हूं। मेरी मूल भाषा बहुत कठोर थी। मैंने शुरुआती वाक्य संपादित किया। टिप्पणीकारों की प्रतिक्रिया के लिए धन्यवाद
अक्सकाल

1
@renakre, अगर आपको नहीं लगता कि ये आउटलेयर हैं, तो टिप्पणियों को न हटाएं। हालाँकि, आपको जो विचार करने की आवश्यकता हो सकती है वह है वर्ग त्रुटि के अलावा पूर्वानुमान की अच्छाई का माप। उदाहरण के लिए, यदि ये उदाहरण आपके लिए इतने महत्वपूर्ण नहीं हैं, तो हो सकता है कि आपको उन्हें वर्गाकार करने की आवश्यकता न हो, और इसके बजाय पूर्ण विचलन आदि का उपयोग करें। माप में पूर्वानुमान त्रुटि के महत्व को दर्शाया जाना चाहिए, जैसे कि प्रत्येक भविष्यवाणी त्रुटि पर डॉलर का नुकसान। । इसके अलावा, तथ्य यह है कि ये मायने रखता है स्वचालित रूप से इसका मतलब यह नहीं है कि कोई उपकरण त्रुटि नहीं है, वेब पेज प्लगइन्स जो गिनती क्लिक विफल हो सकते हैं
अक्षल

4

मैं मूल रूप से इसे किसी अन्य उत्तर के लिए एक टिप्पणी के रूप में पोस्ट करना चाहता था, लेकिन यह फिट होने के लिए बहुत लंबा था।

जब मैं आपके मॉडल को देखता हूं, तो जरूरी नहीं कि इसमें एक बड़ा समूह और कुछ आउटलेयर हों। मेरी राय में, इसमें 1 मध्यम आकार का समूह (1 से -1) और फिर 6 छोटे समूह हैं, जिनमें से प्रत्येक में 2 पूरे संख्याएं हैं। आप स्पष्ट रूप से देख सकते हैं कि जब पूरी संख्या तक पहुँचते हैं, तो उन आवृत्तियों पर कम अवलोकन होते हैं। केवल विशेष बिंदु 0 है, जहां टिप्पणियों में वास्तव में एक गिरावट नहीं है।

मेरी राय में, यह इस तरह से क्यों फैला हुआ है, इस पर ध्यान देने योग्य है:

  • वितरण के पास ये अवलोकन संख्या पूरे संख्याओं पर क्यों पड़ती है?
  • यह अवलोकन संख्या ड्रॉप 0 पर क्यों नहीं होती है?
  • इन आउटलेर्स के बारे में ऐसा क्या खास है कि वे आउटलेयर हैं?

असतत मानव क्रियाओं को मापते समय, आप हमेशा आउटलेयर होने वाले होते हैं। यह देखना दिलचस्प हो सकता है कि वे आउटलेयर आपके मॉडल के लायक क्यों नहीं हैं, और उन्हें आपके मॉडल के भविष्य के पुनरावृत्तियों में सुधार करने के लिए कैसे उपयोग किया जा सकता है।


+1। संपूर्ण-संख्या अंतर हमेशा पूर्ण संख्याओं पर सही नहीं लगता है, इसलिए यह हम में से एक पैटर्न को देखकर अधिक हो सकता है जो मौजूद नहीं है, लेकिन यह डेटा संग्रह, कोडिंग या विवेकाधिकार की एक कलाकृति हो सकती है जो प्रकाश को बहा सकती है एक पूरे के रूप में डेटा पर। यहां तक ​​कि 0 पर एक अंतर हो सकता है जो बड़ी संख्या में अतिव्यापी और शायद घबराहट वाले डॉट्स द्वारा अस्पष्ट है। निश्चित रूप से यह देखने के लिए कि क्या हम सोचते हैं कि यह देखने के लिए मूल का पीछा करने लायक है।
वेन

2

केवल "सामान्य पैटर्न" के लिए आउटलेर्स को हटाने और मॉडल बनाने के लिए पेशेवरों और विपक्ष हैं।

  • पेशेवरों: मॉडल का प्रदर्शन बेहतर है। अंतर्ज्ञान यह है कि, "सामान्य पैटर्न" और "बाह्य पैटर्न" दोनों को पकड़ने के लिए एक मॉडल का उपयोग करना बहुत कठिन है। इसलिए हम आउटलेर को हटाते हैं और कहते हैं, हम केवल "सामान्य पैटर्न" के लिए एक मॉडल बनाते हैं।

  • विपक्ष: हम आउटलेर के लिए भविष्यवाणी नहीं कर पाएंगे। दूसरे शब्दों में, मान लीजिए कि हमने अपने मॉडल को उत्पादन में रखा है, तो मॉडल से कुछ गुम पूर्वानुमान होंगे

मैं आउटलेयर को हटाने और मॉडल का निर्माण करने का सुझाव दूंगा, और यदि संभव हो तो केवल बाहर के लिए एक अलग मॉडल बनाने का प्रयास करें।

"धोखा" शब्द के लिए, यदि आप पेपर लिख रहे हैं और स्पष्ट रूप से सूचीबद्ध करते हैं कि आप कैसे परिभाषित करते हैं और आउटलेर्स को हटाते हैं, और उल्लेखित सुधार केवल साफ डेटा पर है। यह धोखा नहीं है।


3
मुझे बुरा नहीं लगता, लेकिन क्या कोई मुझे इसका कारण बता सकता है?
हाइताओ डू

I upvoted :) क्या आपको भी लगता है कि आउटलेर्स को हटाना एक अच्छा विचार है और फिर भविष्यवाणी मॉडल के परीक्षण के लिए डेटा को फिर से भरना है?
रेक्रे

1
@renakre मैं आपको सुझाव दूंगा कि उत्पादन में क्या करना है। मान लीजिए, यदि आपको पता चला है कि यह केवल 1% है, और उत्पादन में कोई उत्पादन नहीं करना ठीक है। फिर उन्हें हटा दें। यदि आपको पता चला है कि यह 30% है, और उत्पादन में भविष्यवाणियों को छोड़ना ठीक नहीं है। फिर इसके लिए एक अलग मॉडल बनाने की कोशिश करें।
हाइताओ डू

हम ज्यादातर चीजों को परख रहे हैं यह देखने के लिए कि क्या हम कुछ परिणाम चर का अनुमान लगा सकते हैं। क्या if it is fine to produce no output in productionइसका मतलब वही है? इसलिए, यदि हम परिणाम चर का परीक्षण करने और आवेदन में अनुमानित स्कोर का उपयोग करने के लिए एक वास्तविक एप्लिकेशन में हमारे मॉडल का उपयोग करना शुरू करते हैं, तो आउटलेयर को निकालना ठीक नहीं होगा (विशेषकर यदि वे आपके बताए अनुसार कई हैं)? क्या यही आपका मतलब है?
18

1
@renakre तुम पर मर रहे हैं! यही हमने हाल ही में एआईटीओबीओएक्स के साथ किया है जहां पूर्वानुमान सीमाएं न केवल साई वेट पर आधारित हैं, बल्कि री-सैंपल त्रुटियां आउटलेर के साथ आबादी वाली हैं। यह केवल ARIMA मॉडल के लिए ही नहीं बल्कि कार्य-कारण मॉडल के लिए भी किया जाता है जहां भविष्यवाणियों में अनिश्चितता भी इसी तरह से शामिल होती है।
19

2

मेरा मानना ​​है कि जब किसी के पास ऐसा करने का ठोस गुणात्मक कारण होता है, तो उसे बाहर निकालना उचित है। इसके द्वारा मेरा मतलब है कि एक जानकारी है कि एक और चर, जो मॉडल में नहीं है, बाहरी प्रभाव को प्रभावित कर रहा है। फिर किसी के पास बाहरी को हटाने या अतिरिक्त चर जोड़ने का विकल्प होता है।

मुझे पता चलता है कि जब मैं अपने डेटासेट के अंदर अधिक मात्रा में अवलोकन करता हूं, तो यह निर्धारित करने के लिए अध्ययन करके कि आउटलाइयर मौजूद क्यों है, मैं अपने डेटा और संभव अन्य मॉडलों के बारे में अधिक जानने के लिए विचार करता हूं।


1
आँकड़ों में आपका स्वागत है। कृपया हमारे दौरे को देखने के लिए कुछ समय लें । यह उपयोगी होगा यदि आपने अपने उत्तर का विस्तार पूरी तरह से प्रश्न का उत्तर देने के लिए किया है (जैसे कि बॉक्सप्लॉट के आधार पर बाह्य निर्धारण, इस पद्धति का प्रभाव भविष्यवाणी मॉडल पर हो सकता है, और सी।)।
तावरॉक

2

मुझे यकीन भी नहीं है कि वे "आउटलेयर" हैं। आप एक सामान्य संभावना प्लॉट बनाना चाहते हैं। क्या वे किसी मॉडल को फिट करने से डेटा या अवशेष हैं?


वे अनुमानित और वास्तविक मूल्यों के बीच का अंतर हैं।
रेनकेरे
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.