प्रतिगमन का उपयोग करके बाह्य पता लगाना


11

क्या प्रतिगमन का उपयोग बाहर की पहचान के लिए किया जा सकता है। मैं समझता हूं कि आउटलेर्स को हटाकर एक प्रतिगमन मॉडल को बेहतर बनाने के तरीके हैं। लेकिन यहां प्राथमिक उद्देश्य प्रतिगमन मॉडल को फिट करना नहीं है, बल्कि प्रतिगमन का उपयोग करके पता लगाना है


जब एक रूपरेखा के बिना एक मॉडल को फिट करने के बाद फिट में सुधार होता है, तो इस बात का सबूत है कि यह एक चरम मूल्य है। यदि आपके पास बहुत अधिक डेटा है तो यह मूट हो सकता है, क्योंकि फिट अपेक्षाकृत कम सुधार होगा।
रोमन लुसट्रिक

@ RomanLuštrik: यह आउटलेयर की एक बहुत ही हिचकिचाहट परिभाषा है। उदाहरण के लिए, यह Glen_b के उत्तर में उपयोग किए गए आउटलेयर के दृष्टिकोण के अनुरूप नहीं है (या "रोबस्ट स्टैटिस्टिक्स: थ्योरी एंड मेथड्स" जैसे विषय पर पाठ्यपुस्तक में उपयोग किए गए आउटलेर की परिभाषा के साथ इस मामले के लिए)। अपनी परिभाषा का समर्थन करने के लिए एक स्रोत का हवाला देते हैं?
user603

मैं किसी संदर्भ का हवाला नहीं दे सकता। आप निश्चित रूप से सही हैं, फिट में सुधार क्या है? सुधार एक अत्यधिक व्यक्तिपरक मामला हो सकता है और इसे एक गाइड के रूप में इस्तेमाल किया जाना चाहिए, न कि एक रोबोट कट-ऑफ वैल्यू और केस-टू-केस के आधार पर आंका जाना चाहिए।
रोमन लुसट्रिक

आम तौर पर रिवाइस्टेड लेस्टर स्क्वेयर एक मजबूत रिग्रेशन विधि है जिसका इस्तेमाल आमतौर पर डेटा में आउटलेर्स को खोजने के लिए किया जाता है।
व्हीबर

जवाबों:


13

प्रतिभूतियों को खोजने के लिए प्रतिगमन का उपयोग करने का आपका सबसे अच्छा विकल्प मजबूत प्रतिगमन का उपयोग करना है।

साधारण प्रतिगमन को दो तरीकों से प्रभावित किया जा सकता है:

x¯

दूसरा, एक्स-स्पेस में एक 'आउटलाइंग' अवलोकन एक प्रभावशाली अवलोकन है - यह रेखा के फिट को अपनी ओर खींच सकता है। यदि यह पर्याप्त रूप से दूर है तो लाइन प्रभावशाली बिंदु से होकर जाएगी:

यहां छवि विवरण दर्ज करें

बाएं प्लॉट में, एक बिंदु है जो काफी प्रभावशाली है, और यह डेटा के बड़े थोक से काफी हद तक लाइन खींचता है। सही प्लॉट में, इसे और भी दूर ले जाया गया है - और अब लाइन बिंदु से होकर जाती है। जब एक्स-मूल्य वह चरम होता है, जैसा कि आप उस बिंदु को ऊपर और नीचे ले जाते हैं, तो रेखा उसके साथ चलती है, अन्य बिंदुओं के माध्यम से और एक प्रभावशाली बिंदु के माध्यम से जा रही है।

एक प्रभावशाली बिंदु जो शेष डेटा के साथ पूरी तरह से संगत है, इतनी बड़ी समस्या नहीं हो सकती है, लेकिन एक जो डेटा के बाकी हिस्सों के माध्यम से एक लाइन से दूर है, वह डेटा के बजाय लाइन को फिट कर देगा।

यदि आप दाएं हाथ के भूखंड को देखते हैं, तो लाल रेखा - सबसे कम वर्ग प्रतिगमन रेखा - एक बाहरी बिंदु के रूप में चरम बिंदु को बिल्कुल नहीं दिखाती है - इसका अवशिष्ट 0. है। इसके बजाय, कम से कम वर्ग रेखा से बड़े अवशिष्ट अंदर हैं डेटा का मुख्य हिस्सा!

इसका मतलब है कि आप पूरी तरह से एक बाहरी याद कर सकते हैं

कई प्रतिगमन के साथ भी बदतर, एक्स-स्पेस में एक बाहरी रूप किसी एकल एक्स-चर के लिए विशेष रूप से असामान्य नहीं लग सकता है। यदि इस तरह की कोई संभावना है, तो संभवतः कम से कम वर्गों के प्रतिगमन का उपयोग करना एक बहुत ही जोखिम भरा काम है।

मजबूत प्रतिगमन

यदि आप एक मजबूत लाइन फिट करते हैं - विशेष रूप से प्रभावशाली आउटलेर्स के लिए एक मजबूत - दूसरे प्लॉट में ग्रीन लाइन की तरह - तो बाहरी एक बहुत बड़ी अवशिष्ट है।

में है कि मामला है, आप बाहरी कारकों के कारण की पहचान करने की कुछ उम्मीद है - कुछ अर्थों में - - लाइन के करीब वे अंक कि नहीं कर रहे हैं हो जाएगा।


बाहर निकालने वाला

आप निश्चित रूप से पहचान करने के लिए एक मजबूत प्रतिगमन का उपयोग कर सकते हैं और इस तरह आउटलेर को हटा सकते हैं।

एक बार जब आप एक मजबूत प्रतिगमन फिट होते हैं, तो एक जो पहले से ही आउटलेर्स से बुरी तरह प्रभावित नहीं है, आपको जरूरी नहीं कि आउटलेर्स को हटा दिया जाए - आपके पास पहले से ही एक मॉडल है जो एक अच्छा फिट है।


1
"आप आवश्यक रूप बाहरी कारकों के कारण को दूर करने की जरूरत नहीं है" कभी कभी, बाहरी कारकों के कारण खोजने है अध्ययन का उद्देश्य (जैसे धोखाधड़ी पहचान)
user603

1

3
(+1) अच्छा उत्तर, लेकिन यह एक दया है कि आप मजबूत प्रतिगमन के किसी भी तरीके का उल्लेख नहीं करते हैं। उदाहरण के लिए, हरे रंग की लाइन को सही सबप्लॉट पर कैसे प्लॉट किया गया था (और आप उस एल्गोरिथ्म को दूसरों पर क्यों पसंद करते हैं)? हो सकता है कि यह लिंक यहां उपयोगी हो: फास्ट लीनियर रिग्रेशन मजबूत आउटलेर्स के लिए - यकीनन सीवी पर सबसे अच्छा थ्रेड मजबूत रिग्रेशन पर चर्चा कर रहा है।
अमीबा

-2

क्या प्रतिगमन का उपयोग बाहरी पहचान के लिए किया जा सकता है।

हाँ। यह उत्तर और Glen_b का उत्तर इसे संबोधित करता है।

यहां प्राथमिक उद्देश्य प्रतिगमन मॉडल को फिट करना नहीं है, बल्कि प्रतिगमन का उपयोग करके पता लगाना है

रोमन लिस्टर्क की टिप्पणी के आधार पर, यहां एक बहुविकल्पी प्रतिगमन (आउट लाइनर) प्रतिगमन का उपयोग कर खोजने के लिए एक अनुमान है।

n

  1. n rtotal

  2. ri

  3. rirtotiri<<rtotali

इन उम्मीदवारों को अलग-अलग बिंदुओं पर सेट करना, हम पूरे अभ्यास को फिर से कम किए गए नमूने के साथ दोहरा सकते हैं। एल्गोरिथ्म में, हम डेटा में उदाहरण चुन रहे हैं जो प्रतिगमन फिट को एक बुरे तरीके से प्रभावित कर रहे हैं (जो एक उदाहरण के लिए एक आउटलेयर के रूप में लेबल करने का एक तरीका है)।


1
क्या आपने यहां दिखाए गए डेटासेट पर यह रणनीति आज़माई है ? मूल रूप से, आपकी रणनीति यह दावा करने के लिए है कि आउटलेयर फिट की एक श्रृंखला के परिणामों से विश्वसनीय रूप से पाया जा सकता है, जो उत्तल हानि समारोह को कम करता है, जो कि एक ज्ञात विकृति है जब एक से अधिक परिणाम होते हैं (यह लिंक संबंधित समस्या के लिए दिखाता है। बहुभिन्नरूपी आउटलेयर खोजने के लिए लेकिन परिणाम प्रतिगमन पर भी लागू होते हैं)।
user603

मैं अपना उत्तर हटाकर खुश हूं। लेकिन पहले, मुझे समझ में नहीं आता है कि आप दोनों रिफ और इसके अलावा, मुझे यकीन नहीं है कि वे मेरे जवाब को गलत क्यों बनाते हैं। ? रणनीति ’पहला रेफ कहां है? क्या आप किसी विशिष्ट उत्तर की ओर संकेत कर सकते हैं? दूसरे रेफरी का कौन सा पेज और लाइन यहाँ प्रासंगिक है और 'पतन' पर चर्चा करता है?
अजा

1
क्षमा करें, मैं केवल अब इस पर वापस आ सकता हूं। टिप्पणी अनुभाग एक उदाहरण प्रदान करने के लिए थोड़ा छोटा है और मैं 'उत्तर' अनुभाग का उपयोग नहीं करूंगा क्योंकि यह ओपी का सवाल नहीं है। फिर भी, क्या आपके पास मेरे द्वारा लिंक किए गए डेटा पर अपनी कार्यप्रणाली को आज़माने का समय है?
यूजर 603
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.