यह एक ऐसा क्षेत्र है जहाँ शब्दावली में थोड़ी असंगति है जो कुछ सांख्यिकीय चर्चाओं को भ्रमित करने का दुर्भाग्यपूर्ण प्रभाव है। की अवधारणा " अयोग्य"आम तौर पर एक डेटा मान को संदर्भित करने के लिए उपयोग किया जाता है जो त्रुटि में होता है (यानी, माप त्रुटि के अधीन), लेकिन फिर भी सही रूप से मापा मूल्यों के वितरण के" आंतरिक "में है। इस परिभाषा के अनुसार अशुभता के दो पहलू हैं: (1) ) यह मूल्यों के प्रासंगिक वितरण के आंतरिक भाग में है, और (2) यह एक गलत मूल्य है। इसके विपरीत, "आउटलाइयर" की संबंधित धारणा आमतौर पर किसी भी डेटा मूल्य को संदर्भित करने के लिए उपयोग की जाती है जो दूर की पूंछ में है। वितरण, लेकिन बिना किसी निश्चित पहलू के यह मानते हुए कि यह त्रुटि में है। यह शब्दावली एक दुर्भाग्यपूर्ण असंगति पैदा करती है, जहां एक "अयोग्य" एक त्रुटिपूर्ण डेटा बिंदु है (परिभाषा के अनुसार) लेकिन एक "बाहरी" जरूरी नहीं कि एक गलत डेटा बिंदु है। इसलिए, इसलिए। इस शब्दावली के तहत, "कैदी" और "आउटलेर्स" का मिलनया तो सभी डेटा, या यहां तक कि सभी गलत डेटा के अनुरूप नहीं है।
बाहरी लोगों से निपटना: मैंने यहाँ और अन्य सवालों में बाहरी लोगों से निपटने पर चर्चा की है , लेकिन सुविधा के लिए, मैं यहाँ उन टिप्पणियों में से कुछ को दोहराऊंगा। आउटलेर्स ऐसे बिंदु होते हैं जो किसी वितरण में अन्य बिंदुओं के थोक से दूर होते हैं, और डेटा पॉइंट की तुलना कुछ "वितरित" रूप से किया जाता है। हालांकि आउटलेरर्स कभी-कभी माप त्रुटि के कारण हो सकते हैं, जब डेटा उच्च कर्टोसिस (यानी, वसा पूंछ) के साथ वितरण का अनुसरण करता है, तो आउटलेयर का निदान भी हो सकता है, लेकिन विश्लेषक डेटा बिंदुओं की तुलना निम्न क्रायोसिस के साथ एक मानार्थ वितरण फॉर्म से करता है (जैसे, सामान्य वितरण)।
आउटलाइन परीक्षणों में "आउटलेयर" के झंडे का वास्तव में मतलब है कि आपके द्वारा उपयोग किए जा रहे मॉडल वितरण में मनाया गया डेटा का सही प्रतिनिधित्व करने के लिए पर्याप्त पूंछ नहीं है। ऐसा इसलिए हो सकता है क्योंकि कुछ डेटा में माप त्रुटि होती है, या यह केवल वसा पूंछ के साथ एक वितरण से हो सकता है। जब तक यह सोचने का कोई कारण नहीं है कि ग्रहण किए गए मॉडल फॉर्म से विचलन माप त्रुटि के प्रमाण का गठन करता है (जो वितरण धारणा के लिए एक सैद्धांतिक आधार की आवश्यकता होगी), आउटलेर की उपस्थिति का आम तौर पर मतलब है कि आपको अपने मॉडल को फेरर के लिए वितरण का उपयोग करने के लिए बदलना चाहिए पूंछ। अंतर्निहित त्रुटि और उच्च कुर्तोसिस के बीच अंतर करना मुश्किल है जो अंतर्निहित वितरण का हिस्सा है।
प्रसाधनों से निपटना (जिसमें आम तौर पर उनके साथ काम नहीं करना शामिल होता है): जब तक आपके पास माप की त्रुटि का संकेत देने वाली बाहरी जानकारी का स्रोत नहीं होता है, तब तक "इंलरेट्स" की पहचान करना अनिवार्य रूप से असंभव है। परिभाषा के अनुसार, ये डेटा बिंदु हैं जो वितरण के "इंटीरियर" में हैं, जहां अधिकांश अन्य डेटा होते हैं। इसलिए, यह उन परीक्षणों से नहीं पाया जाता है जो डेटा की तलाश करते हैं जो अन्य डेटा बिंदुओं से "अपमान" है। (कुछ मामलों में आप "इनरेट्स" का पता लगा सकते हैं जो वितरण के इंटीरियर में लगते हैं, लेकिन वितरण के अधिक जटिल प्रतिनिधित्व के संबंध में लेने पर वास्तव में "आउटलेयर" होते हैं। इस मामले में बिंदु वास्तव में एक बाहरी है,
कुछ दुर्लभ मामलों में आपके पास जानकारी का एक बाहरी स्रोत हो सकता है जो माप त्रुटि के अधीन होने के रूप में आपके डेटा के सबसेट की पहचान करता है (उदाहरण के लिए, यदि आप एक बड़ा सर्वेक्षण कर रहे हैं और आपको पता चलता है कि आपका एक सर्वेक्षक सिर्फ अपना डेटा बना रहा था )। इस स्थिति में, उस उपसमुच्चय में कोई भी डेटा बिंदु जो वितरण के आंतरिक भाग में "इनरेल" हैं और बाहरी सूचना के माध्यम से माप त्रुटि के अधीन होने के लिए जाना जाता है। इस मामले में आप आम तौर पर त्रुटिपूर्ण होने के लिए जाने जाने वाले सभी डेटा को हटा देंगे, भले ही इसमें से कुछ "इनरोलर्स" हों जो वितरण के इंटीरियर में हों जहां आप इसे होने की उम्मीद करेंगे। यहाँ बिंदु यह है कि डेटा बिंदु गलत हो सकता है भले ही वह वितरण की पूंछ में न हो।