अक्सर बार एक सांख्यिकीय विश्लेषक को एक सेट डेटासेट दिया जाता है और रैखिक प्रतिगमन जैसी तकनीक का उपयोग करके एक मॉडल को फिट करने के लिए कहा जाता है। बहुत बार डाटासेट "ओह, हाँ, हमने कुछ डेटा बिंदुओं को इकट्ठा करने में गड़बड़ी की - जो आप करते हैं" के समान अस्वीकरण के साथ है।
यह स्थिति प्रतिगमन फिट की ओर जाता है जो बाहरी डेटा की उपस्थिति से भारी रूप से प्रभावित होता है जो गलत डेटा हो सकता है। निम्नलिखित को देखते हुए:
यह एक वैज्ञानिक और नैतिक दोनों दृष्टिकोण से खतरनाक है, क्योंकि इसके अलावा डेटा को फेंकने के लिए "फिट दिखने में खराब होता है"।
वास्तविक जीवन में, जिन लोगों ने डेटा एकत्र किया है, वे अक्सर "इस डेटा सेट को बनाते समय, जैसे प्रश्नों के उत्तर देने के लिए उपलब्ध नहीं होते हैं, आपने किन बिंदुओं पर गड़बड़ की है, वास्तव में?"
रैखिक प्रतिगमन विश्लेषण में आउटलेर्स को बाहर करने के लिए आधार के रूप में अंगूठे के सांख्यिकीय परीक्षणों या नियमों का उपयोग किया जा सकता है?
क्या मल्टीलाइनर रिग्रेशन के लिए कोई विशेष विचार हैं?