तिरछा वितरण पर आउटलाइंग डिटेक्शन


24

डेटा प्वाइंट के रूप में ऊपरी या निचले चतुर्थक से 1.5 * IQR से बाहर की एक शास्त्रीय परिभाषा के तहत, गैर-तिरछी वितरण की धारणा है। तिरछे वितरण (एक्सपोनेंशियल, पॉइसन, जियोमेट्रिक, आदि) के लिए मूल फ़ंक्शन के परिवर्तन का विश्लेषण करके एक बाहरी का पता लगाने का सबसे अच्छा तरीका है?

उदाहरण के लिए, वितरण एक घातांक वितरण द्वारा शिथिल रूप से संचालित होता है, जिसे लॉग फ़ंक्शन से बदला जा सकता है - किस बिंदु पर एक ही IQR परिभाषा के आधार पर आउटलेर की तलाश करना स्वीकार्य है?


4
इस साइट पर आउटलेर के आकलन पर कई सवाल हैं। एक उचित जवाब पाने के लिए आपको यहां एक चीज जोड़ने की जरूरत है, जिसे आप वास्तव में करने या जानने की कोशिश कर रहे हैं। लेकिन शुरुआत के लिए, 1.5*IQRएक बाहरी की परिभाषा सार्वभौमिक रूप से स्वीकार नहीं की जाती है। अपना प्रश्न अनलोड करने का प्रयास करें और उस समस्या पर विस्तार करें जिसे आप हल करने का प्रयास कर रहे हैं।
जॉन

यह कथन कि 1.5 IQR से अधिक का मूल्य एक बाहरी है, बस बकवास है। 1.5 IQR से अधिक के डेटा पूरी तरह से वितरण की अनंत संख्या के अनुरूप होंगे, और जैसा कि नमूना आकार बड़ा हो जाता है, किसी को लगभग पूर्ण विश्वास हो सकता है कि इस तरह के डेटा आउटलेयर नहीं थे।
भेड़ियों

जवाबों:


18

डेटा बिंदु के रूप में ऊपरी या निचले चतुर्थक से 1.5 * IQR के बाहर एक बाहरी की शास्त्रीय परिभाषा के तहत,

यह एक बॉक्सप्लॉट में मूंछ के सिरों के बाहर बिंदुओं की पहचान करने के लिए नियम है। Tukey खुद को इस आधार पर उन्हें आउटलेर कहने में कोई संदेह नहीं होगा (वह आवश्यक रूप से उन सीमाओं के बाहर के बिंदुओं को नहीं मानता था)। ये वे बिंदु होंगे जो - यदि आपका डेटा सामान्य वितरण से कुछ हद तक समान वितरण से होने की उम्मीद थी - तो कोई आगे की जांच के अधीन हो सकता है (जैसे कि जाँचना कि आपने दो अंकों को स्थानांतरित नहीं किया है, उदाहरण के लिए) - इन सबसे संभावित आउटलेर हो सकता है । जैसा कि निक कॉक्स इस उत्तर के तहत टिप्पणियों में बताते हैं , ऐसे कई बिंदुओं की एक पूंछ को एक संकेतक के रूप में अधिक लिया जाएगा जो कि आउटलेयर के रूप में बिंदुओं को मानने की आवश्यकता के संकेत की तुलना में एक पुन: अभिव्यक्ति उपयुक्त हो सकते हैं।

गैर-तिरछी वितरण की धारणा है।

मैंने 'नॉन-स्केव्ड' से माना है कि आपका मतलब सममित है। तब धारणा बस से अधिक है। एक भारी-पूंछ वाला लेकिन सममितीय वितरण उस नियम पर सीमा के बाहर कई बिंदु हो सकता है ।

तिरछे वितरण (एक्सपोनेंशियल, पॉइसन, जियोमेट्रिक, आदि) के लिए मूल फ़ंक्शन के परिवर्तन का विश्लेषण करके एक बाहरी का पता लगाने का सबसे अच्छा तरीका है?

यह इस बात पर निर्भर करता है कि आपके उद्देश्यों के लिए क्या रूपरेखा है। प्रत्येक उद्देश्य के लिए उपयुक्त एक भी परिभाषा नहीं है - वास्तव में, आम तौर पर आप शायद अन्य चीजों को करने से बेहतर होते हैं जो (कहते हैं) आउटलेर को उठाते हैं और उन्हें छोड़ देते हैं।

घातीय या ज्यामितीय लिए, आप एक boxplot के लिए है कि करने के लिए एक समान गणना कर सकता है, लेकिन जो केवल सही पूंछ में एक ऐसी ही अंश की पहचान हैं (आप लो-एंड अंक एक घातीय या ज्यामितीय में पहचान नहीं होगा) .. या आप कुछ और कर सकते हैं।

बड़े नमूनों में, प्रत्येक के अंत में अंकों की 0.35%, या कुल मिलाकर% लगभग 0.7 के बारे में boxplot के निशान। एक घातांक के लिए आप उदाहरण के लिए, माध्यिका के कुछ गुणकों को चिह्नित कर सकते हैं। यदि आप एक वास्तविक घातीय के लिए कुल 0.7% अंक टैग करना चाहते हैं, तो यह सुझाव देगा कि औसत से लगभग 7.1 गुना अधिक अंकों को चिह्नित किया जाए।

N = 1000 के लिए माध्यिका के 7.1 गुना से अधिक अंक अंकन आमतौर पर 0.4% से 1.1% मानों के बीच होगा:

ae <- rexp(1000)
table( ae > 7.1*median(ae) )

FALSE  TRUE 
  993     7 

उदाहरण के लिए, वितरण एक घातांक वितरण द्वारा शिथिल रूप से संचालित होता है, जिसे लॉग फ़ंक्शन से बदला जा सकता है - किस बिंदु पर एक ही IQR परिभाषा के आधार पर आउटलेर की तलाश करना स्वीकार्य है?

यह पूरी तरह से इस बात पर निर्भर करता है कि आपको "स्वीकार्य" से क्या मतलब है। ध्यान दें, हालांकि -

i) परिणामी वितरण वास्तव में सममित नहीं है, लेकिन विशिष्ट रूप से बाएं-तिरछा है।

यहाँ छवि विवरण दर्ज करें

परिणामस्वरूप, आप आमतौर पर केवल बाएं छोर (यानी शून्य के करीब, जहां आप घातीय मानों के वैसे भी होने की उम्मीद करते हैं) को दाएं के बजाय चिह्नित करते हैं (जहां "आउटलेयर" हो सकते हैं), जब तक कि वे वास्तव में न हों चरम।

ii) इस तरह के नियम की उपयुक्तता इस बात पर निर्भर करती है कि आप क्या कर रहे हैं।

यदि आप अपने विस्मय को प्रभावित करने वाले अजीब अजीब मूल्य के बारे में चिंतित हैं, तो सामान्य तौर पर, आप संभवतः औपचारिक रूप से बाहरी लोगों की पहचान करने की तुलना में मजबूत प्रक्रियाओं का उपयोग करने से बेहतर हैं।

यदि आप वास्तव में रूपांतरित घातांक या पॉसों डेटा के लिए एक सामान्य-आधारित नियम का उपयोग करना चाहते हैं, तो मैं कम से कम इसे एक पॉइसन के लिए वर्गमूल square पर लागू करने का सुझाव दूंगा (जब तक कि इसका मतलब बहुत छोटा नहीं है, यह होना चाहिए लगभग सामान्य रूप से) और घन रूट या यहां तक ​​कि चौथी जड़ के लिए घातांक (और शायद, विस्तार से, ज्यामितीय)।

या शायद , जैसा किAnscombe में रूपांतरित होता हैX+38

यहाँ छवि विवरण दर्ज करें

एक घातांक के लिए, बड़े नमूनों में क्यूब-रूट दृष्टिकोण केवल ऊपरी पूंछ में बिंदुओं को चिह्नित करेगा (लगभग उसी दर पर यह उन्हें एक सामान्य के लिए ऊपरी पूंछ में चिह्नित करता है) और चौथा-रूट दृष्टिकोण दोनों पूंछों में अंक दिखाता है। (निचली पूंछ में थोड़ा अधिक, कुल मिलाकर 40% दर के पास यह सामान्य के लिए ऐसा करता है)। संभावनाओं में से, क्यूब रूट मुझे अन्य दो की तुलना में अधिक समझ में आता है, लेकिन मैं इसे कुछ कठिन और तेज नियम के रूप में उपयोग करने की सलाह नहीं दूंगा।


1
"एक भारी-पूंछ वाला लेकिन सममितीय वितरण उस नियम पर सीमा के बाहर कई बिंदु हो सकता है।" हमेशा IQR के भीतर सभी बिंदुओं का लगभग 50% होता है, क्या वे नहीं हैं?
जुलिएनडी

2
(Q11.5×IQR,Q3+1.5×IQR)

@Glen_b आपके उत्तर में घातांक के लिए ऊपरी अस्वीकृति सीमा मानती है कि शिफ्ट पैरामीटर (या थीटा) जाना जाता है। मुझे लगता है कि इसका उल्लेख किया जाना चाहिए।
user603

1
@ user603 शब्द " घातीय वितरण " ( यहां भी देखें ) बिना किसी संशोधित विशेषण के (जैसे "स्थानांतरित" या "दो-पैरामीटर") सबसे पारंपरिक रूप से एक-पैरामीटर संस्करण को संदर्भित करता है। कुछ लोग शिफ्ट किए गए संस्करण को "घातीय वितरण" कहते हैं, लेकिन यह अपेक्षाकृत दुर्लभ है; शिफ्ट किए गए लॉगनॉर्मल डिस्ट्रीब्यूशन "लॉगनॉर्मल डिस्ट्रीब्यूशन" को कॉल करने की तुलना में केवल थोड़ा अधिक सामान्य है।
Glen_b -Reinstate मोनिका

1
@ user603 ओह, क्षमा करें, एक साधारण गलतफहमी - उस मामले में हाँ, मुझे नहीं लगता कि हमारे पास कोई असहमति है - जहां बाईं ओर बड़े आउटलेयर की कोई संभावना है, मैंने जो उल्लेख किया है, उसका कोई मतलब नहीं है । मैं बस उस स्थिति से किसी भी स्थिति से निपटने का प्रयास नहीं कर रहा था (लेकिन मेरे बचाव में, यह मुझे ऐसा नहीं लगा, जैसे ओपी ने इसे एक संभावना के रूप में माना - मुझे संदेह है कि लॉग्स लेने पर मन में आया होगा)।
Glen_b -Reinstate मोनिका

14

मैं आपके प्रश्नों का उत्तर उस क्रम में दूंगा, जिसमें आपने उनसे पूछा था, ताकि प्रदर्शनी विशिष्ट से सामान्य की ओर बढ़े।

पहले, हम एक ऐसी स्थिति पर विचार करें जहां आप यह मान सकते हैं कि बाहरी लोगों के अल्पसंख्यक को छोड़कर, आपके डेटा के थोक को एक ज्ञात वितरण (आपके मामले में घातीय) द्वारा अच्छी तरह से वर्णित किया जा सकता है।

x

pX(x)=σ1exp((xθ)σ),x>0;σ>0

xθ=0

मापदंडों के सामान्य MLE अनुमानक हैं [0, p 506]:

θ^=minixi

तथा

σ^=aveiximinixi

यहाँ एक उदाहरण है R:

n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)

σ2.08

xixi

m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)

σ11.12xi100xi

m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)

σ54

कच्चे MLE के लिए एक विकल्प है (क) एक मजबूत बाहरी पहचान नियम का उपयोग करके आउटलेर्स को ढूंढें , (b) उन्हें अलग-अलग डेटा के रूप में सेट करें और (c) MLE को नमूने के गैर-स्प्यूरियस भाग पर गणना करें।

इन मजबूत बाहरी पहचान नियम के बारे में सबसे अच्छी तरह से जाना जाता है, हम्पेल [3] द्वारा प्रस्तावित मेड / पागल नियम है, जिसने इसे गॉस के लिए जिम्मेदार ठहराया (मैंने यहां इस नियम को चित्रित किया है )। मेड / पागल नियम में, अस्वीकृति दहलीज इस धारणा पर आधारित है कि आपके नमूने में वास्तविक अवलोकन एक सामान्य वितरण द्वारा अच्छी तरह से अनुमानित हैं।

बेशक, अगर आपके पास अतिरिक्त जानकारी है (जैसे कि यह जानते हुए कि वास्तविक टिप्पणियों का वितरण अच्छी तरह से इस उदाहरण के रूप में एक poisson वितरण द्वारा अनुमानित है ) तो आपको अपने डेटा को बदलने और बेसलाइन आउटलाइडर अस्वीकृति नियम का उपयोग करने से रोकने के लिए कुछ भी नहीं है। मेड / पागल) लेकिन यह डेटा को बदलने के लिए थोड़ा अजीब है कि सभी तदर्थ नियम के बाद क्या है।

यह डेटा को संरक्षित करने के लिए मुझे बहुत अधिक तर्कसंगत लगता है लेकिन अस्वीकृति नियमों को अनुकूलित करता है। फिर, आप अभी भी ऊपर बताए गए पहले चरण में बताए गए 3 चरण की प्रक्रिया का उपयोग करेंगे, लेकिन अस्वीकृति सीमा के साथ वितरण के अनुकूल होने से आपको डेटा के अच्छे हिस्से पर संदेह है। नीचे, मैं उन स्थितियों में अस्वीकृति नियम देता हूं जहां वास्तविक टिप्पणियों को एक घातांक वितरण द्वारा अच्छी तरह से फिट किया जाता है। इस स्थिति में, आप निम्न नियम का उपयोग करके अच्छी अस्वीकृति थ्रेसहोल्ड का निर्माण कर सकते हैं:

θ

θ^=medixi3.476Qn(x)ln2

3.476

2) [2, पी 188] के बाहर के सभी टिप्पणियों के रूप में अस्वीकार

[θ^,9(1+2/n)medixi+θ^]

(ऊपर के नियम में कारक 9 को Glen_b के उत्तर में 7.1 के रूप में प्राप्त किया गया है, लेकिन एक उच्च कट-ऑफ का उपयोग कर रहा है। कारक (1 + 2 / n) छोटा नमूना सुधार कारक है जिसे [2] में सिमुलेशन द्वारा प्राप्त किया गया था। बड़े पर्याप्त नमूना आकार के लिए, यह अनिवार्य रूप से 1 के बराबर है)।

σ

σ^=aveiHximiniHxi

H={i:θ^xi9(1+2/n)medixi+θ^}

पिछले उदाहरणों पर इस नियम का उपयोग करते हुए, आपको मिलेगा:

library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])

σ2.05

theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])

σ2.2

तीसरे उदाहरण पर:

theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])

σ2.2

{i:iH}

अब, सामान्य मामले के लिए जहां आपके पास एक अच्छा उम्मीदवार वितरण नहीं है, यह जानने के लिए कि आप एक सममित वितरण नहीं करेंगे, यह जानने के लिए कि आप समायोजित बॉक्सप्लॉट [4] का उपयोग कर सकते हैं। यह बॉक्सप्लॉट का एक सामान्यीकरण है जो आपके डेटा के तिरछापन (गैर पैरामीट्रिक और अधिक मजबूत) माप को ध्यान में रखता है (ताकि जब डेटा का थोक सममित हो तो सामान्य बॉक्सप्लॉट तक ढह जाता है)। आप एक चित्रण के लिए इस उत्तर को भी देख सकते हैं ।

  • [०] जॉनसन एनएल, कोटज़ एस।, बालकृष्णन एन। (१ ९९ ४)। निरंतर अविभाज्य वितरण, खंड 1, 2 संस्करण।
  • [१] रुसेवुव पीजे और क्राउक्स सी। (१ ९९ ३)। माध्य निरपेक्ष विचलन के विकल्प। अमेरिकी सांख्यिकी एसोसिएशन जर्नल, खंड। 88, नंबर 424, पीपी। 1273--1283।
  • [२] जेके पटेल, सीएच कपाड़िया, और डीबी ओवेन, डेकर (१ ९ Patel६)। सांख्यिकीय वितरण की पुस्तिका।
  • [३] हम्पेल (१ ९ el४)। इन्फ्लुएंस कर्व एंड इट्स रोल इन रॉबस्ट एस्टिमेशन। अमेरिकी सांख्यिकी एसोसिएशन जर्नल, खंड। 69, संख्या 346 (जून, 1974), पीपी। 383-393।
  • [४] वांडरविरेन, ई।, ह्यूबर्ट, एम। (२००४) "तिरछे वितरण के लिए एक समायोजित बॉक्सप्लॉट"। कम्प्यूटेशनल स्टैटिस्टिक्स एंड डेटा एनालिसिस वॉल्यूम 52, अंक 12, 15 अगस्त 2008, पृष्ठ 5186-5201।

1

सबसे पहले, मैं परिभाषा, शास्त्रीय या अन्यथा सवाल करूंगा। एक "बाहरी" एक आश्चर्यजनक बिंदु है। किसी विशेष नियम (यहां तक ​​कि सममित वितरण के लिए) का उपयोग करना एक त्रुटिपूर्ण विचार है, खासकर आजकल जब बहुत सारे विशाल डेटा सेट हैं। (कहो) के एक डेटा सेट में एक लाख टिप्पणियों (सभी क्षेत्रों में यह सब बड़ा नहीं है), 1.5 IQR सीमा से परे कई मामले होंगे जो आप उद्धृत करते हैं, भले ही वितरण पूरी तरह से सामान्य हो।

दूसरा, मेरा सुझाव है कि मूल डेटा पर आउटलेर की तलाश करें। यह लगभग हमेशा अधिक सहज होगा। उदाहरण के लिए, आय डेटा के साथ, लॉग लेना काफी आम है। लेकिन यहां तक ​​कि मैं मूल पैमाने (डॉलर या यूरो या जो कुछ भी) पर आउटलेर की तलाश करूंगा क्योंकि हमारे पास इस तरह की संख्याओं के लिए बेहतर अनुभव है। (यदि आप लॉग्स लेते हैं, तो मेरा सुझाव है कि लॉग बेस 10, कम से कम बाहरी पहचान के लिए, क्योंकि यह कम से कम थोड़ा सहज है)।

तीसरा, जब आउटलेर्स की तलाश हो, तो मास्किंग से सावधान रहें।

अंत में, मैं वर्तमान में Atkinson और Riani द्वारा प्रस्तावित "फॉरवर्ड सर्च" एल्गोरिदम पर विभिन्न प्रकार के डेटा और समस्याओं के लिए शोध कर रहा हूं। यह बहुत ही आशाजनक लग रहा है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.