प्रभावशाली बिंदु, उच्च उत्तोलन बिंदु और बाहरी के बीच तुलना का सटीक अर्थ?


15

विकिपीडिया से

प्रभावशाली अवलोकन वे अवलोकन हैं जो प्रतिगमन मॉडल की भविष्यवाणियों पर अपेक्षाकृत बड़ा प्रभाव डालते हैं।

विकिपीडिया से

उत्तोलन बिंदु वे अवलोकन हैं, यदि कोई है, तो स्वतंत्र चर के चरम या बाहरी मूल्यों से बना है, जैसे कि पड़ोसी टिप्पणियों की कमी का मतलब है कि फिट किए गए प्रतिगमन मॉडल उस विशेष अवलोकन के करीब से गुजरेंगे।

विकिपीडिया से निम्न तुलना क्यों की जाती है

हालांकि एक प्रभावशाली बिंदु में आम तौर पर उच्च उत्तोलन होगा , एक उच्च उत्तोलन बिंदु जरूरी एक प्रभावशाली बिंदु नहीं है


2
नीचे दिए गए उत्तर अच्छे हैं। यहाँ मेरे उत्तर को पढ़ने में भी मदद मिल सकती है: प्लॉट की व्याख्या करनाएलएम ()
गूँग - मोनिका

जवाबों:


13

कुछ डेटा के लिए फिट किसी भी प्रतिगमन रेखा की कल्पना करें।

अब एक अतिरिक्त डेटा बिंदु की कल्पना करें, जो डेटा के मुख्य शरीर से कुछ दूर है, लेकिन एक जो उस प्रतिगमन रेखा के साथ कहीं स्थित है।

यदि प्रतिगमन रेखा को परिष्कृत किया जाना था, तो गुणांक नहीं बदलेगा। इसके विपरीत, अतिरिक्त बाहरी को हटाने से गुणांक पर शून्य प्रभाव होगा।

तो, एक बाहरी या उत्तोलन बिंदु का शून्य प्रभाव होगा यदि यह पूरी तरह से डेटा और बाकी मॉडल के अनुरूप है।

यदि वांछित है तो "लाइन" के लिए "प्लेन" या "हाइपरप्लेन" पढ़ें, लेकिन दो चर और स्कैटर प्लॉट का सबसे सरल उदाहरण यहां पर्याप्त है।

हालांकि, जैसा कि आप परिभाषाओं के शौकीन हैं - अक्सर, ऐसा लगता है, उनमें बहुत अधिक पढ़ने की प्रवृत्ति है - यहां मेरी पसंदीदा परिभाषाएं हैं:

"आउटलेयर ऐसे नमूना मूल्य हैं जो नमूने के बहुमत के संबंध में आश्चर्य का कारण बनते हैं" (डब्ल्यूएन वेनबेल्स और बीडी रिप्ले। 2002। एस। न्यूयॉर्क के साथ आधुनिक लागू आंकड़े : स्प्रिंगर, पी .19)।

गंभीर रूप से, आश्चर्य देखने वाले के मन में है और यह डेटा के कुछ मौन या स्पष्ट मॉडल पर निर्भर है। एक और मॉडल हो सकता है जिसके तहत आउटलाइन बिल्कुल भी आश्चर्यजनक नहीं है, कहते हैं कि क्या डेटा वास्तव में सामान्य के बजाय तार्किक या गामा हैं।

पीएस मुझे नहीं लगता है कि लीवरेज अंक जरूरी पड़ोसी टिप्पणियों का अभाव है। उदाहरण के लिए, वे जोड़े में हो सकते हैं।


धन्यवाद! क्या आउटलेर और उच्च लीवरेज एक ही अवधारणा हैं? ध्यान दें कि en.wikipedia.org/wiki/Partial_leiture
टिम

1
नहीं; आपने हमें "आउटलाइयर" की परिभाषा नहीं दी है, लेकिन यह लीवरेज पॉइंट्स की परिभाषा से निम्नानुसार है कि उन्हें आउटलेर सेंसु वेनबेल्स और रिप्ले की आवश्यकता नहीं है । (मैं खुद को विकिपीडिया से दूर करने की कोशिश कर रहा हूँ।) गेल का जवाब भी देखें।
निक कॉक्स

1
"गंभीर रूप से, आश्चर्य देखने वाले के मन में है और डेटा के कुछ मौन या स्पष्ट मॉडल पर निर्भर है। एक और मॉडल हो सकता है जिसके तहत आउटलाइयर बिल्कुल भी आश्चर्यचकित नहीं है, अगर डेटा वास्तव में लॉगेनॉर्मल या गामा के बजाय है। सामान्य। " इसलिए आउटलेर्स को wrt को कुछ मॉडल के रूप में परिभाषित किया गया है, जबकि उच्च लीवरेज अंक और प्रभावशाली अंक नहीं हैं?
टिम

1
वेनबेल्स और रिप्ले थे, जैसा कि मैंने इसे पढ़ा, एक बुद्धिमानी को एक मजाकिया तरीके से बना रहा था, और भोले विचार को दबा रहा था कि आउटलेर को सटीक, औपचारिक बयानों द्वारा परिभाषित किया जा सकता है। लेकिन अन्य उपचार विभिन्न शैलियों में पाए जा सकते हैं। इसके विपरीत, उत्तोलन और प्रभाव को उन्हें मापने के तरीकों के रूप में औपचारिक रूप से परिभाषित किया जा सकता है। शब्दावली का उपयोग करने की दो शैलियाँ वास्तव में सुसंगत नहीं हैं। आउटलेयर क्या हैं और क्या नहीं, इसका एक बेहतर विचार प्राप्त करने के लिए, वास्तविक डेटा विश्लेषण का अनुभव विश्वकोश प्रविष्टियों के पढ़ने से अधिक सिखाता है।
निक कॉक्स

गेल ने 29 जुलाई 2013 को टिप्पणी का उल्लेख किया था अब पहचानकर्ता @ गाला का उपयोग कर रहा है। लेखन के समय केवल एक अन्य उत्तर होता है, लेकिन वह बदल सकता है।
निक कॉक्स

20

यह स्पष्ट करना आसान है कि एक सरल रैखिक मॉडल के मामले में उच्च उत्तोलन बिंदु कैसे प्रभावशाली नहीं हो सकता है:

उच्च उत्तोलन लेकिन प्रभावशाली बिंदु नहीं

नीली रेखा सभी डेटा के आधार पर एक प्रतिगमन रेखा है, लाल रेखा भूखंड के शीर्ष दाईं ओर बिंदु को अनदेखा करती है।

यह बिंदु आपके द्वारा प्रदान किए गए उच्च लीवरेज बिंदु की परिभाषा को फिट करता है क्योंकि यह बाकी डेटा से बहुत दूर है। उसके कारण, प्रतिगमन रेखा (नीला एक) को इसके करीब से गुजरना पड़ता है। लेकिन चूंकि इसकी स्थिति काफी हद तक बाकी डेटा में देखे गए पैटर्न पर फिट बैठती है, इसलिए दूसरा मॉडल इसे बहुत अच्छी तरह से भविष्यवाणी करेगा (यानी लाल रेखा पहले से ही किसी भी मामले में इसके करीब से गुजरती है) और इसलिए यह विशेष रूप से प्रभावशाली नहीं है।

इसकी तुलना निम्नलिखित स्कैल्पलॉट से करें:

उच्च उत्तोलन अत्यधिक प्रभावशाली बिंदु

यहां, भूखंड के दाईं ओर बिंदु अभी भी एक उच्च उत्तोलन बिंदु है, लेकिन इस बार यह वास्तव में बाकी डेटा में देखे गए पैटर्न को फिट नहीं करता है। नीली रेखा (सभी डेटा पर आधारित रैखिक फिट) बहुत करीब से गुजरती है लेकिन लाल रेखा नहीं होती है। इस एक बिंदु को शामिल करने या बाहर करने से पैरामीटर का अनुमान नाटकीय रूप से बदल जाता है: इसका बहुत अधिक प्रभाव होता है।

ध्यान दें कि आपने जिन परिभाषाओं का हवाला दिया था और जो उदाहरण मैंने अभी दिए हैं, उनका अर्थ यह लग सकता है कि उच्च उत्तोलन / प्रभावशाली अंक कुछ अर्थों में, "आउटलेर्स" को अविभाजित करते हैं और फिट किए गए प्रतिगमन लाइन उच्चतम प्रभाव के साथ अंकों के करीब से गुजरेंगे, लेकिन इसकी आवश्यकता है ऐसा नहीं है।

अत्यधिक प्रभावशाली बिंदु छिपा है

इस अंतिम उदाहरण में, नीचे दाईं ओर के अवलोकन में मॉडल के फिट पर एक (अपेक्षाकृत) बड़ा प्रभाव होता है (फिर से लाल और नीली रेखाओं के बीच अंतर के माध्यम से दिखाई देता है) लेकिन यह अभी भी प्रतिगमन रेखा से बहुत दूर प्रतीत होता है जबकि अविभाजित वितरण में अनिर्दिष्ट होने के कारण (कुल्हाड़ियों के साथ "आसनों" द्वारा यहां दिखाया गया है)।


धन्यवाद! क्या हम यहां उपयोग किए गए उच्च उत्तोलन बिंदु "एन लीवरेज को आमतौर पर en.wikipedia.org/wiki/Partial_leiture से हैट मैट्रिक्स के विकर्ण के रूप में परिभाषित करते हैं" ?
टिम

बहुत बढ़िया स्पष्टीकरण। अत्यधिक सराहना करेंगे यदि आप तीनों मामलों के लिए डेटा प्रदान करते हैं। धन्यवाद
MYaseen208
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.