"डेटा क्लींजिंग" की भूमिका यह जानना है कि "हमारे कानून (मॉडल) काम नहीं करते हैं"। आउटलेयर या असामान्य डेटा बिंदुओं के लिए समायोजन करना हमें वर्तमान मॉडल में मापदंडों के "मजबूत अनुमान" प्राप्त करने की अनुमति देता है जो हम मनोरंजक हैं। ये "आउटलेयर" यदि अनुपचारित मॉडल मापदंडों में एक अवांछित विरूपण की अनुमति देते हैं, तो अनुमान है कि "इन डेटा बिंदुओं को समझाने के लिए प्रेरित है" जो "हमारे परिकल्पित मॉडल के अनुसार व्यवहार नहीं कर रहे हैं"। दूसरे शब्दों में "खलनायकों" पर ध्यान केंद्रित करके वर्गों के स्पष्ट योग के संदर्भ में बहुत अधिक वापसी है। आनुभविक रूप से पहचाने जाने वाले बिंदु जिनकी सफाई की आवश्यकता होती है, उन्हें संभावित रूप से विकसित करने / सुझाव देने के लिए सावधानीपूर्वक छानबीन करनी चाहिए, जो वर्तमान मॉडल में नहीं हैं।
वार्षिक स्थिति घातक दर का उपयोग करके एक राज्य बनाम दूसरे में हस्तक्षेप के प्रभाव का आकलन कैसे करें?
विज्ञान के लिए बार-बार पैटर्न की खोज करना है।
विसंगतियों का पता लगाने के लिए उन मूल्यों की पहचान करना है जो दोहराया पैटर्न का पालन नहीं करते हैं। आपको और कैसे पता चलेगा कि एक बिंदु ने उस मॉडल का उल्लंघन किया है? वास्तव में, आउटलेर्स को बढ़ने, समझने, खोजने और जांचने की प्रक्रिया पुनरावृत्त होनी चाहिए। यह कोई नई सोच नहीं है।
सर फ्रांसेस बेकन ने नोवम ऑर्गम में लगभग 400 साल पहले लिखा था: “प्रकृति, खेल और राक्षस की गलतियाँ सामान्य चीजों के संबंध में समझ को सही करती हैं, और सामान्य रूपों को प्रकट करती हैं। जो कोई भी प्रकृति के तरीकों को जानता है, वह आसानी से उसके विचलन को नोटिस करेगा; और, दूसरी ओर, जो कोई भी जानता है कि विध्वंस उसके तरीकों का अधिक सटीक वर्णन करेगा। "
वर्तमान नियमों के विफल होने पर हम अपने नियमों को बदलते हैं।
यदि वास्तव में पहचाने गए आउटलेर सभी दालें हैं और उनके समान प्रभाव (आकार) हैं तो हम निम्नलिखित सुझाव देते हैं (दूसरे पोस्टर से उद्धृत)
एक प्रतिगमन सेटिंग में ऐसा करने के लिए "एक त्वरित और गंदा" तरीका एक महामारी चर के रूप में महामारी वर्ष / अवधि के लिए एक संकेतक शामिल करना है। इससे आपको महामारी के प्रभाव का एक औसत अनुमान मिलेगा (और निहितार्थ प्रभाव को मानता है। प्रत्येक महामारी के लिए एक ही)। हालांकि, यह दृष्टिकोण केवल प्रभाव का वर्णन करने के लिए काम करता है, क्योंकि पूर्वानुमान में, आपका प्रतिगमन चर अज्ञात है (आप नहीं जानते कि भविष्य में कौन सी अवधि महामारी वाले होंगे)। "
यदि इस पाठ्यक्रम के लिए आवश्यक है कि व्यक्तिगत विसंगतियों (पल्स वर्ष) के समान प्रभाव हों। यदि वे भिन्न होते हैं तो ऊपर वर्णित एक पोर्टमैंटो चर गलत होगा।