प्रतिगमन मॉडल में सुधार करने के लिए टिप्पणियों को हटाने के लिए यह लगभग हमेशा एक धोखा है । आपको केवल टिप्पणियों को छोड़ देना चाहिए जब आप वास्तव में सोचते हैं कि ये वास्तव में आउटलेयर हैं।
उदाहरण के लिए, आपके पास अपनी स्मार्ट घड़ी से जुड़ी हृदय गति मॉनिटर से समय श्रृंखला है। यदि आप श्रृंखला पर एक नज़र डालते हैं, तो यह देखना आसान है कि 300 जीबी की तरह रीडिंग के साथ गलत अवलोकन होंगे। इन्हें हटा दिया जाना चाहिए, लेकिन इसलिए नहीं कि आप मॉडल को सुधारना चाहते हैं (जो भी इसका मतलब है)। वे पढ़ने में गलतियाँ करते हैं जिनका आपके दिल की दर से कोई लेना-देना नहीं है।
डेटा के साथ त्रुटियों का सहसंबंध है, हालांकि एक बात सावधान रहना चाहिए। मेरे उदाहरण में यह तर्क दिया जा सकता है कि आपके पास त्रुटियां हैं जब हृदय गति पर नज़र रखने को ओ जंपिंग जैसे अभ्यास के दौरान विस्थापित किया जाता है। जो इन त्रुटियों को हार्ट रेट के साथ सहसंबद्ध बना देगा। इस मामले में, इन आउटलेर और त्रुटियों को हटाने में सावधानी बरतनी चाहिए, क्योंकि वे यादृच्छिक नहीं हैं
मैं आपको एक दिया उदाहरण देता हूं जब आउटलेर्स को नहीं निकालना है । मान लीजिए कि आप एक स्प्रिंग पर भार की गति को माप रहे हैं। वजन है, तो शक्ति के लिए छोटे रिश्तेदार वजन के है, तो आप देखेंगे कि हूक के नियम को बहुत अच्छी तरह से काम करता है: जहां एफ बल, है कश्मीर
F=−kΔx,
Fk - तनाव गुणांक और
वजन की स्थिति है ।
Δx
अब यदि आप बहुत भारी वजन डालते हैं या वजन को बहुत अधिक विस्थापित करते हैं, तो आप विचलन देखना शुरू कर देंगे: बड़े विस्थापन पर Δx रैखिक मॉडल को बेहतर बनाने के को । यह एक अच्छा विचार नहीं होगा, क्योंकि मॉडल बहुत अच्छी तरह से काम नहीं कर रहा है क्योंकि हुक का कानून केवल लगभग सही है।
अद्यतन आपके मामले में मैं उन डेटा बिंदुओं को खींचने और उन्हें करीब से देखने का सुझाव दूंगा। क्या यह लैब इंस्ट्रूमेंट फेल हो सकता है? बाहरी हस्तक्षेप? नमूना दोष? आदि।
अगला यह पहचानने का प्रयास करें कि क्या आप इन उदाहरणों के प्रेस्नेप को इस बात से सहसंबद्ध कर सकते हैं कि आप मेरे द्वारा दिए गए उदाहरण में क्या मापते हैं। यदि सहसंबंध है तो इसके बारे में जाने का कोई सरल तरीका नहीं है। यदि कोई संबंध नहीं है, तो आप बाहरी लोगों को हटा सकते हैं