'आउटलाइयर ’डेटा एकत्र करने के लिए एक सुविधाजनक शब्द है जो विश्लेषण से हटाने के लिए आपकी प्रक्रिया के अनुरूप दिखने की उम्मीद नहीं करता है।
मैं सुझाव दूंगा कि कभी (कैविट बाद में) आउटलेर को हटा दें। मेरी पृष्ठभूमि सांख्यिकीय प्रक्रिया नियंत्रण है, इसलिए अक्सर स्वचालित रूप से उत्पन्न समय-श्रृंखला डेटा के बड़े संस्करणों के साथ सौदा होता है जो डेटा और वितरण के आधार पर एक रन चार्ट / मूविंग बॉक्स प्लॉट / आदि का उपयोग करके संसाधित किया जाता है।
आउटलेर्स के साथ बात यह है कि वे हमेशा आपकी 'प्रक्रिया' के बारे में जानकारी प्रदान करेंगे। अक्सर आप जो एक प्रक्रिया के रूप में सोच रहे होते हैं वह वास्तव में कई प्रक्रियाएं होती हैं और यह आपके लिए इसका श्रेय देने की तुलना में कहीं अधिक जटिल है।
आपके प्रश्न में उदाहरण का उपयोग करते हुए, मेरा सुझाव है कि कई 'प्रक्रियाएं' हो सकती हैं। के कारण भिन्नता होगी ...
- एक चालन उपकरण द्वारा लिए गए नमूने
- के बीच लिए गए नमूनेप्रवाहकत्त्व उपकरणों के
- जब विषय ने एक जांच हटा दी
- जब विषय चला गया
- उनके शरीर के भीतर या विभिन्न नमूने दिनों (बाल, नमी, तेल, आदि) के बीच एक विषय की त्वचा के भीतर अंतर
- विषयों के बीच अंतर
- कर्मचारियों के बीच माप और बदलाव लेने वाले व्यक्ति का प्रशिक्षण
ये सभी प्रक्रियाएं डेटा में अतिरिक्त भिन्नता उत्पन्न करेंगी और संभवतः माध्य को स्थानांतरित करेंगी और वितरण के आकार को बदल देंगी। इनमें से कई आप अलग-अलग प्रक्रियाओं में अलग नहीं कर पाएंगे।
इसलिए 'आउटलेर्स' के रूप में डेटा बिंदुओं को हटाने के विचार पर जा रहा हूं ... मैं केवल डेटा बिंदुओं को हटा दूंगा , जब मैं निश्चित रूप से उन्हें एक विशेष 'प्रक्रिया' के लिए विशेषता दे सकता हूं जिसे मैं अपने विश्लेषण में शामिल नहीं करना चाहता हूं। फिर आपको यह सुनिश्चित करने की आवश्यकता है कि गैर-समावेश के कारणों को आपके विश्लेषण के हिस्से के रूप में दर्ज किया जाए, इसलिए यह स्पष्ट है। अपने डेटा संग्रह के दौरान अवलोकन के माध्यम से अतिरिक्त नोट्स लेने के बारे में महत्वपूर्ण बात यह है कि अटेंशन नहीं मानें।
मैं आपके कथन को चुनौती दूंगा 'क्योंकि उनमें से अधिकांश वैसे भी त्रुटियां हैं', क्योंकि वे त्रुटियां नहीं हैं, लेकिन एक अलग प्रक्रिया का हिस्सा हैं जिसे आपने अलग-अलग होने के रूप में अपने मापों में पहचाना है।
आपके उदाहरण में, मुझे लगता है कि डेटा बिंदुओं को बाहर करना उचित है जो आप एक अलग प्रक्रिया को विशेषता दे सकते हैं जिसे आप विश्लेषण नहीं करना चाहते हैं।