जब तक आपका डेटा ज्ञात गुणों के साथ एक ज्ञात वितरण से आता है, तब तक आप एक घटना के रूप में एक बाहरी रूप से सख्ती से परिभाषित कर सकते हैं जो कि अवलोकन की गई प्रक्रिया से उत्पन्न होने की संभावना नहीं है (यदि आप "बहुत कम संभावना" को गैर-कठोर मानते हैं, तो सभी परिकल्पना परीक्षण है)।
हालांकि, यह दृष्टिकोण दो स्तरों पर समस्याग्रस्त है: यह मानता है कि डेटा ज्ञात गुणों के साथ एक ज्ञात वितरण से आता है, और यह जोखिम लाता है कि आउटलेर्स को डेटा बिंदुओं के रूप में देखा जाता है जो कुछ जादुई faeries द्वारा आपके डेटा सेट में तस्करी किए गए थे।
जादुई डेटा faeries के अभाव में, सारा डेटा आपके प्रयोग से आता है, और इस प्रकार वास्तव में आउटलेयर होना संभव नहीं है, बस अजीब परिणाम हैं। ये रिकॉर्डिंग त्रुटियों से आ सकते हैं (जैसे 4 डॉलर के लिए 400000 बेडरूम का घर), व्यवस्थित माप के मुद्दे (छवि विश्लेषण एल्गोरिदम विशाल क्षेत्रों की रिपोर्ट करता है यदि वस्तु सीमा के बहुत करीब है) प्रायोगिक समस्याएं (कभी-कभी, क्रिस्टल समाधान से बाहर निकलती हैं,) जो बहुत उच्च संकेत देते हैं), या आपके सिस्टम की विशेषताएं (एक सेल कभी-कभी दो के बजाय तीन में विभाजित कर सकती है), लेकिन वे एक ऐसे तंत्र का परिणाम भी हो सकते हैं जिसे किसी ने कभी नहीं माना क्योंकि यह दुर्लभ है और आप अनुसंधान कर रहे हैं, जिसका अर्थ है कि आपके द्वारा किया गया कुछ सामान अभी तक ज्ञात नहीं है।
आदर्श रूप से, आप समय निकालकर प्रत्येक आउटलुक की जांच करते हैं, और केवल यह समझने के लिए कि यह आपके मॉडल में फिट क्यों नहीं है, केवल इसे अपने डेटा सेट से हटा दें। यह समय लेने वाली और व्यक्तिपरक है कि कारण प्रयोग पर अत्यधिक निर्भर हैं, लेकिन विकल्प बदतर है: यदि आपको समझ में नहीं आता है कि आउटलेयर कहां से आया है, तो आपके पास अपने परिणामों को "गड़बड़" करने का विकल्प है। या अपनी समझ की कमी को छिपाने के लिए कुछ "गणितीय रूप से कठोर" दृष्टिकोण को परिभाषित करना। दूसरे शब्दों में, "गणितीय कठोरता" का पालन करके आप एक महत्वपूर्ण प्रभाव नहीं पाने और स्वर्ग में नहीं होने के बीच चुनते हैं।
संपादित करें
यदि आपके पास सभी संख्याओं की एक सूची है, बिना यह जाने कि वे कहाँ से आते हैं, तो आपके पास यह बताने का कोई तरीका नहीं है कि कुछ डेटा बिंदु एक आउटलाइयर है, क्योंकि आप हमेशा एक वितरण मान सकते हैं जहां सभी डेटा इनरॉल हैं।