"2.5 गुना RMSE" के आधार पर आउटलेर्स को छोड़ना


13

में Kahneman और Deaton (2010) , लेखकों निम्नलिखित लिखें:

यह प्रतिगमन 0.67852 के मूल माध्य वर्ग त्रुटि (RMSE) के साथ 37% विचरण को स्पष्ट करता है। आउटलेर्स और अनुमानित आय रिपोर्ट को समाप्त करने के लिए, हमने टिप्पणियों को छोड़ दिया जिसमें लॉग इनकम और इसकी भविष्यवाणी के बीच अंतर का पूर्ण मूल्य आरएमएसई से 2.5 गुना से अधिक था।

क्या यह आम बात है? ऐसा करने के पीछे क्या अंतर्ज्ञान है? यह एक मॉडल के आधार पर एक रूपरेखा को परिभाषित करने के लिए कुछ अजीब लगता है जो पहली जगह में अच्छी तरह से निर्दिष्ट नहीं हो सकता है। क्या आउटलेर्स का निर्धारण कुछ सैद्धांतिक आधारों पर आधारित नहीं होना चाहिए, जो एक प्रशंसनीय मूल्य का गठन करता है, बजाय इसके कि आपका मॉडल वास्तविक मूल्यों की कितनी अच्छी भविष्यवाणी करता है?


: डैनियल काह्नमैन, एंगस डीटन (2010): उच्च आय जीवन के मूल्यांकन में सुधार करती है लेकिन भावनात्मक भलाई नहीं। नेशनल एकेडमी ऑफ साइंसेज की कार्यवाही सितंबर 2010, 107 (38) 16489-16493; DOI: 10.1073 / pnas.1011492107


1
जब आप कागज से एक उद्धरण देते हैं, तो हमेशा एक संदर्भ दें जिसमें पृष्ठ संख्या शामिल हो
बेन -

7
मैं नहीं कह सकता कि क्या यह 'सामान्य अभ्यास' है, लेकिन मुझे आशा है कि नहीं। 'आउटलेर ’का स्वचालित निष्कासन मूल रूप से एक बुरा विचार है। हो सकता है कि आपका मॉडल या निष्कासन मानदंड अच्छा न हो, हो सकता है कि कुछ नया हो रहा हो (मंदी की शुरुआत, ताजा संभावनाएं जागृति) जिसे आपको नजरअंदाज नहीं करना चाहिए। // यदि आप डेटा प्रविष्टि त्रुटि या उपकरण विफलता के लिए एक संदिग्ध मान ट्रैक कर सकते हैं, तो यह अलग है, या यदि मूल्य बस ऑफ-द-चार्ट बेतुका (16'2 "लंबा आदमी है, तो w / 61 बिल योग्य घंटे पिछले मंगलवार, 25 मिनट उड़ान एसएफओ-ओआरडी)। लेकिन इसलिए नहीं कि यह एक मॉडल के लायक नहीं है। मैं एक स्टार्टअप को जानता हूं जो इस तरह से टूट गया।
ब्रूसेट

7
इस दृष्टिकोण की सांख्यिकीय वैधता आरएमएसई के लिए रिपोर्ट की गई दशमलव की बेतुकी संख्या से परिलक्षित होती है।
फ्रैंस रोडेनबर्ग

यह कुछ महीने पहले पूछे गए एक प्रश्न के लिए एक कच्चे / वीर धारणा समाधान की तरह लगता है: आंकड़े ।stackexchange.com
एड्रियन

जवाबों:


30

इस डेटा को छोड़ने का कारण वहीं उद्धरण में दिया गया है: अर्थात्, "आउटलेर्स और अनुमानित आय रिपोर्ट को समाप्त करने के लिए"। तथ्य यह है कि वे संयोजन में इन दोनों चीजों का उल्लेख करते हैं, इसका मतलब है कि वे मानते हैं कि कम से कम उनके कुछ आउटलायर्स मूल्यवान मूल्य नहीं हैं, और किसी भी मामले में, वे इस बात के लिए कोई तर्क नहीं देते हैं कि उच्च अवशिष्ट के साथ मूल्यों को "अनुमानित" क्यों माना जाना चाहिए। “आय का मान। ऐसा करने से, वे प्रभावी रूप से डेटा बिंदुओं को हटा रहे हैं क्योंकि अवशिष्ट उनके प्रतिगमन मॉडल में अपेक्षा से अधिक हैं। जैसा कि मैंने यहां एक अन्य उत्तर में कहा है , यह आपके मॉडल मान्यताओं के अनुरूप वास्तविकता की आवश्यकता के लिए टेंटमाउंट है, और वास्तविकता के उन हिस्सों की अनदेखी करना जो उन मान्यताओं के अनुरूप नहीं हैं।

यह एक आम बात है या नहीं, यह एक भयानक अभ्यास है। ऐसा इसलिए होता है क्योंकि बाहरी डेटा बिंदुओं से निपटना कठिन होता है, और विश्लेषक उन्हें ठीक से मॉडल करने के लिए तैयार नहीं होते हैं (उदाहरण के लिए, एक मॉडल का उपयोग करके जो त्रुटि के मामले में उच्च कर्टोसिस की अनुमति देता है), इसलिए वे सिर्फ वास्तविकता के कुछ हिस्सों को हटा देते हैं जो नहीं करते हैं सांख्यिकीय मॉडलिंग करने की उनकी क्षमता के अनुरूप। यह प्रथा सांख्यिकीय रूप से अवांछनीय है और यह ऐसे संदर्भों की ओर ले जाती है जो त्रुटि रूप में व्यवस्थित रूप से विचरण और कर्टोसिस को कम करते हैं। इस पेपर के लेखकों ने बताया कि इन आउटलेर्स (पृष्ठ 16490) को हटाने के कारण उन्होंने अपने डेटा का 3.22% गिरा दिया। चूंकि इनमें से अधिकांश डेटा पॉइंट बहुत अधिक आय वाले होते हैं, इसलिए यह उच्च आय के प्रभाव (जो कि उनके पेपर का लक्ष्य है) के बारे में मजबूत निष्कर्ष बनाने की उनकी क्षमता पर काफी संदेह करता है।


आपकी हिम्मत कैसे हुई डेनियल कहमन की आलोचना करने की ! एक तरफ चुटकुले, वे बहुत अच्छे अंक +1 हैं।
टिम

11
कहमैन एक बहुत ही अच्छा मनोवैज्ञानिक है, जिसकी किताबें मैंने आम तौर पर आनंद ली हैं और मददगार पाई हैं। उनमें से प्रत्येक के पास पचास नोबेल पुरस्कार हो सकते हैं --- यह इस तथ्य को नहीं बदलेगा कि "आउटलेर्स" का सामूहिक निष्कासन एक भयानक सांख्यिकीय अभ्यास है।
बेन -

3
स्वाभाविक रूप से मैं आपसे सहमत हूं। मुझे नहीं लगा कि यह कहने की जरूरत है।
निक कॉक्स

1
@ नाइकॉक्स का मतलब है कि आपको "नोबेल मेमोरियल प्राइज" कहा जाता है : क्योंकि मुझे यकीन है कि आप जानते हैं कि यह नोबेल द्वारा स्थापित नहीं किया गया था और उसका वास्तव में कोई लेना देना नहीं है। आधिकारिक नाम जाहिरा तौर पर "अल्फ्रेड नोबेल की स्मृति में आर्थिक विज्ञान में Sveriges Riksbank पुरस्कार" है।
अमीबा का कहना है कि मोनिका

1
आपको यकीन है कि मुझे पता है कि और आप वास्तव में सही हैं। हमेशा आधिकारिक ईजेएमआर ने एक बार मेरे बारे में यह पोस्ट किया "नहीं, वह कभी नोबेल नहीं जीतेगा", जिसका अर्थ है कि पुरस्कार।
निक कॉक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.