क्या प्रतिगमन का उपयोग बाहर की पहचान के लिए किया जा सकता है। मैं समझता हूं कि आउटलेर्स को हटाकर एक प्रतिगमन मॉडल को बेहतर बनाने के तरीके हैं। लेकिन यहां प्राथमिक उद्देश्य प्रतिगमन मॉडल को फिट करना नहीं है, बल्कि प्रतिगमन का उपयोग करके पता लगाना है
क्या प्रतिगमन का उपयोग बाहर की पहचान के लिए किया जा सकता है। मैं समझता हूं कि आउटलेर्स को हटाकर एक प्रतिगमन मॉडल को बेहतर बनाने के तरीके हैं। लेकिन यहां प्राथमिक उद्देश्य प्रतिगमन मॉडल को फिट करना नहीं है, बल्कि प्रतिगमन का उपयोग करके पता लगाना है
जवाबों:
प्रतिभूतियों को खोजने के लिए प्रतिगमन का उपयोग करने का आपका सबसे अच्छा विकल्प मजबूत प्रतिगमन का उपयोग करना है।
साधारण प्रतिगमन को दो तरीकों से प्रभावित किया जा सकता है:
दूसरा, एक्स-स्पेस में एक 'आउटलाइंग' अवलोकन एक प्रभावशाली अवलोकन है - यह रेखा के फिट को अपनी ओर खींच सकता है। यदि यह पर्याप्त रूप से दूर है तो लाइन प्रभावशाली बिंदु से होकर जाएगी:
बाएं प्लॉट में, एक बिंदु है जो काफी प्रभावशाली है, और यह डेटा के बड़े थोक से काफी हद तक लाइन खींचता है। सही प्लॉट में, इसे और भी दूर ले जाया गया है - और अब लाइन बिंदु से होकर जाती है। जब एक्स-मूल्य वह चरम होता है, जैसा कि आप उस बिंदु को ऊपर और नीचे ले जाते हैं, तो रेखा उसके साथ चलती है, अन्य बिंदुओं के माध्यम से और एक प्रभावशाली बिंदु के माध्यम से जा रही है।
एक प्रभावशाली बिंदु जो शेष डेटा के साथ पूरी तरह से संगत है, इतनी बड़ी समस्या नहीं हो सकती है, लेकिन एक जो डेटा के बाकी हिस्सों के माध्यम से एक लाइन से दूर है, वह डेटा के बजाय लाइन को फिट कर देगा।
यदि आप दाएं हाथ के भूखंड को देखते हैं, तो लाल रेखा - सबसे कम वर्ग प्रतिगमन रेखा - एक बाहरी बिंदु के रूप में चरम बिंदु को बिल्कुल नहीं दिखाती है - इसका अवशिष्ट 0. है। इसके बजाय, कम से कम वर्ग रेखा से बड़े अवशिष्ट अंदर हैं डेटा का मुख्य हिस्सा!
इसका मतलब है कि आप पूरी तरह से एक बाहरी याद कर सकते हैं ।
कई प्रतिगमन के साथ भी बदतर, एक्स-स्पेस में एक बाहरी रूप किसी एकल एक्स-चर के लिए विशेष रूप से असामान्य नहीं लग सकता है। यदि इस तरह की कोई संभावना है, तो संभवतः कम से कम वर्गों के प्रतिगमन का उपयोग करना एक बहुत ही जोखिम भरा काम है।
मजबूत प्रतिगमन
यदि आप एक मजबूत लाइन फिट करते हैं - विशेष रूप से प्रभावशाली आउटलेर्स के लिए एक मजबूत - दूसरे प्लॉट में ग्रीन लाइन की तरह - तो बाहरी एक बहुत बड़ी अवशिष्ट है।
में है कि मामला है, आप बाहरी कारकों के कारण की पहचान करने की कुछ उम्मीद है - कुछ अर्थों में - - लाइन के करीब वे अंक कि नहीं कर रहे हैं हो जाएगा।
बाहर निकालने वाला
आप निश्चित रूप से पहचान करने के लिए एक मजबूत प्रतिगमन का उपयोग कर सकते हैं और इस तरह आउटलेर को हटा सकते हैं।
एक बार जब आप एक मजबूत प्रतिगमन फिट होते हैं, तो एक जो पहले से ही आउटलेर्स से बुरी तरह प्रभावित नहीं है, आपको जरूरी नहीं कि आउटलेर्स को हटा दिया जाए - आपके पास पहले से ही एक मॉडल है जो एक अच्छा फिट है।
क्या प्रतिगमन का उपयोग बाहरी पहचान के लिए किया जा सकता है।
हाँ। यह उत्तर और Glen_b का उत्तर इसे संबोधित करता है।
यहां प्राथमिक उद्देश्य प्रतिगमन मॉडल को फिट करना नहीं है, बल्कि प्रतिगमन का उपयोग करके पता लगाना है
रोमन लिस्टर्क की टिप्पणी के आधार पर, यहां एक बहुविकल्पी प्रतिगमन (आउट लाइनर) प्रतिगमन का उपयोग कर खोजने के लिए एक अनुमान है।
इन उम्मीदवारों को अलग-अलग बिंदुओं पर सेट करना, हम पूरे अभ्यास को फिर से कम किए गए नमूने के साथ दोहरा सकते हैं। एल्गोरिथ्म में, हम डेटा में उदाहरण चुन रहे हैं जो प्रतिगमन फिट को एक बुरे तरीके से प्रभावित कर रहे हैं (जो एक उदाहरण के लिए एक आउटलेयर के रूप में लेबल करने का एक तरीका है)।