डेटा से आउटलेर्स निकालना - अधिकतम संख्या जो कि आप निकाल सकते हैं?


9

मेरे डेटा में कुछ आउटलेयर हैं और मैं यह देखना चाहता हूं कि क्या यह परिणाम बदलता है। आपकी राय में, किसी को खुद को प्रतिबंधित करने की अधिकतम संख्या क्या है?

धन्यवाद! यहाँ छवि विवरण दर्ज करें


आपका ग्राफ यहां पर रखा गया है: y अक्ष पर संख्यात्मक लेबल गायब हैं और किंवदंती प्रविष्टियां अलग नहीं हैं। (यह अप्रकाशित डेटा को छिपाने का एक तरीका हो सकता है, लेकिन यह हमें आपको अच्छी सलाह देने में मदद नहीं करता है।) गुप्त कथा आपके प्रश्न को प्रभावित नहीं करती है, लेकिन यह पता नहीं है कि आप किस पैमाने पर काम कर रहे हैं, उपयोगी उत्तरों की गुंजाइश को सीमित करता है। । दिखाया गया डेटा मध्यम बाएँ या नकारात्मक तिरछा प्रदर्शित करता है; यह समझ में आ सकता है, और स्पष्ट आउटलेर बस उसी के परिणाम हो सकते हैं। वैकल्पिक रूप से, यह हो सकता है कि आपने ओवर-ट्रांसफ़ॉर्म किया हो, उदाहरण के लिए लॉगरिथम का उपयोग किया हो, जहाँ डेटा उस गुण को नहीं दर्शाता है।
निक कॉक्स

जवाबों:


9

कोई अधिकतम या न्यूनतम नहीं है। यदि वे खराब डेटा हैं या उन्हें निकालने के अन्य ठोस कारण हैं, तो आउटलेयर को हटा दिया जाना चाहिए। यदि कोई ठोस कारण नहीं हैं, तो मैं उन तरीकों का उपयोग करने का सुझाव देता हूं जो आउटलेर्स के लिए मजबूत हैं। मैं बाहरी लोगों को सिर्फ इसलिए नहीं निकालूंगा क्योंकि वे अन्य बिंदुओं से थोड़ा दूर हैं।


5
माना। नोट था बॉक्स, हंटर एंड हंटर: "सांख्यिकी के लिए प्रयोगकर्ता" का कहना है कि रासायनिक उद्योग में, आउटलेर्स में अक्सर नए पेटेंट होते हैं! परिस्थितियों के आधार पर, आउटलेर आपके डेटा में जानकारी का सबसे महत्वपूर्ण टुकड़ा हो सकता है! उन्हें निकालना कभी भी आसान नहीं होना चाहिए।
kjetil b halvorsen

3
खगोल भौतिकी में भी। "चलो डेटा से केवल ब्लैक होल और न्यूट्रॉन सितारों को हटा दें" :-)।
पीटर Flom

1
पीटर फ्लोम: हाँ! और इंसानों के बीच, अगर हमारे बीच कोई बाहर नहीं था, हम अभी भी पत्थर की उम्र में रह रहे होंगे!
kjetil b halvorsen

5
इस उदाहरण में, ध्यान दें कि लेबल किए गए सभी 7 आउटलेयर के पास कम मान हैं, जबकि किसी के पास उच्च मूल्य नहीं हैं। यह माप के साथ समस्याओं का प्रतिनिधित्व कर सकता है, या इसका मतलब बहुत दिलचस्प हो सकता है। किसी भी तरह से, केवल कम मूल्यों का नेतृत्व करने के लिए बिना सोचे समझे यहां से बाहर निकालने वालों को हटा दिया जाएगा।
EdM

1
मैं प्रश्न की व्याख्या थोड़ा अलग ढंग से करता हूं। यह विश्लेषण से आउटलेर्स को हटाने का प्रस्ताव नहीं करता है, जो कि यह उत्तर स्पष्ट रूप से मानता है। यह केवल एक संवेदनशीलता विश्लेषण करने के लिए पूछता है "यह देखने के लिए कि क्या यह परिणाम बदलता है।" अगर यह पता चला है विश्लेषण बाद में निर्णय पर कुछ असर होता है और स्पष्ट रूप से - यहाँ बाहरी कारकों के कारण दूर करने के लिए है कि क्या के बारे में दी गयी सलाह हालांकि ठीक है है बाहरी कारकों के कारण के प्रति संवेदनशील है - यह इस मामले में ओपी के हितों की सेवा करने नहीं लगता है।
whuber

1

मैं किसी अन्य उत्तर और टिप्पणियों में कही गई बातों पर जोर दूंगा (मुझे लगता है कि @Peter Flom के उत्तर सटीक हैं और यह कि EdM माप के बारे में सही है, सभी के बीच)।

डेटा का विश्लेषण कुछ ऐसा है जिसे सावधानीपूर्वक किया जाना चाहिए। आपको अपने संपर्क में बाहरी लोगों के अर्थ के बारे में अच्छी तरह से पता होना चाहिए। उदाहरण के लिए, यह मानते हुए कि आपकी माप प्रक्रिया "सही ढंग से" की गई थी (मेरा मतलब है, आपने पूर्वाग्रह नहीं पेश किए हैं, आप उपकरण को कैलिब्रेट किया गया था, उपकरण को पढ़ने वाले व्यक्ति ने इसे सही ढंग से किया था, आदि), कुछ बाहरी लोग कुछ दिलचस्प बता सकते हैं और कुछ समय बहुत महत्वपूर्ण है।

यहां एक बना हुआ उदाहरण है, कृपया भोगवादी (उन्हें टिप्पणियों में इंगित करें) यदि यह सभी पहलुओं पर 100% सही नहीं है। ;)

यह कहें कि कोई पदार्थ बैक्टीरिया की कुछ संस्कृतियों (आबादी) में किसी पदार्थ की एक निश्चित मात्रा को लागू करने के प्रभाव का परीक्षण कर रहा है। अब, "सामान्य रूप से", प्रभाव आबादी में बैक्टीरिया की संख्या को स्थिर करने के लिए है, लेकिन विभिन्न संस्कृतियों के बीच कुछ आउटलेयर हैं।

कल्पना करें कि आपके सभी आउटलेयर उन स्थितियों को इंगित करते हैं जहां सभी बैक्टीरिया मर चुके हैं। या कि सभी बाहरी लोग संस्कृतियों का प्रतिनिधित्व करते हैं जहां बैक्टीरिया आबादी नियंत्रण से बाहर हो गई है।

जो मैं इंगित करना चाहता हूं वह यह है कि आपके कथित आउटलेयर की प्रकृति सार्थक हो सकती है और प्रत्येक के परिणाम अलग-अलग हैं। आप ऐसी स्थिति में हो सकते हैं जहां यह असहनीय हो कि बैक्टीरिया की संख्या बढ़े, या घटे।

बेशक, अगर आपने देखा कि कुछ आबादी जहां पदार्थ द्वारा मिटा दी जाती है, तो आप शायद इस मामले की जांच करेंगे क्योंकि यह एक आसानी से पहचानने योग्य स्थिति है। लेकिन सभी घटना आसानी से पता लगाने योग्य नहीं हैं।

लपेटने के लिए, आउटलेर की धारणा कुछ हद तक मनमानी है, लेकिन उनके अर्थ कई हैं और अलग-अलग महत्व के हैं। आशा है कि यह आपको इस मामले पर सोचने देगा ... :)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.