बॉक्स और व्हिस्कर प्लॉट की रूपरेखा क्या है?


17

एक बॉक्स और व्हिस्कर प्लॉट के लिए एक की मानक परिभाषा की सीमा के बाहर के बिंदु हैं , जहां और पहला चतुर्थक और डेटा की तीसरी चतुर्थांश है।{Q11.5IQR,Q3+1.5IQR}IQR=Q3Q1Q1Q3

इस परिभाषा का आधार क्या है? बड़ी संख्या में अंकों के साथ, यहां तक ​​कि एक पूरी तरह से सामान्य वितरण आउटलेर्स देता है।

उदाहरण के लिए, मान लें कि आप अनुक्रम से शुरू करते हैं:

xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)

यह अनुक्रम 4000 अंकों के डेटा की एक प्रतिशत रैंकिंग बनाता है।

qnormइस श्रृंखला के परिणाम के लिए सामान्यता का परीक्षण :

shapiro.test(qnorm(xseq))

    Shapiro-Wilk normality test

data:  qnorm(xseq)
W = 0.99999, p-value = 1

ad.test(qnorm(xseq))

    Anderson-Darling normality test

data:  qnorm(xseq)
A = 0.00044273, p-value = 1

परिणाम बिल्कुल अपेक्षित हैं: एक सामान्य वितरण की सामान्यता सामान्य है। एक बनाना qqnorm(qnorm(xseq))डेटा की एक सीधी रेखा बनाता है (उम्मीद के रूप में):

डेटा की qqnorm साजिश

यदि समान डेटा का एक बॉक्सप्लॉट बनाया जाता है, boxplot(qnorm(xseq))तो परिणाम उत्पन्न करता है:

डेटा का बॉक्सप्लॉट

जब नमूना आकार पर्याप्त रूप से बड़ा होता है (इस उदाहरण में) तो बॉक्सप्लाट, इसके विपरीत shapiro.test, ad.testया बाहरी बिंदुओं के रूप में कई बिंदुओं की qqnormपहचान करता है।


"आधार" से आपका क्या तात्पर्य है? यह कुछ परिभाषा है, और कोई भी नहीं कहता है कि पूरी तरह से सामान्य वितरण में आउटलेर नहीं है
Haitao Du

2
@ hxd1011, वितरण की परिभाषा अपने आप से बाहर की ओर नहीं हो सकती। एक बॉक्स पर आउटलेर के परीक्षण के लिए यह परिभाषा और व्हिस्कीर प्लॉट परीक्षण / कुछ / परिणाम प्रदान करने के लिए परीक्षण कर रहा है, जो भी यह परीक्षण कर रहा है वह परीक्षण का आधार होगा।
तवर्रुक

मुझे लगता है कि बॉक्स और मूंछ बाहर की परिभाषा सिर्फ कुछ आंकड़ें हैं ... इसके अलावा, वितरण की परिभाषा स्वयं से बाहर की ओर क्यों नहीं हो सकती है?
डू

3
इससे कोई फर्क नहीं पड़ता कि आप किस नियम का चयन करते हैं, आप "बड़ी संख्या में अंकों के साथ, यहां तक ​​कि एक पूरी तरह से सामान्य वितरण रिटर्न आउटलेर" कहते हुए समाप्त करेंगे। [एक उपयोगी वितरण की पहचान करने के तरीके के साथ आने की कोशिश करें, जो सामान्य वितरण से नमूना लेने पर किसी भी बिंदु को अस्वीकार नहीं कर सकते।]
Glen_b -Reinstate Monica

1
बहुत दोहराया गया एक किस्सा यह है कि जॉन तुके, जो अंगूठे के इस नियम के साथ आए थे, उनसे पूछा गया था कि 1.5 क्यों; और कहा कि 1 बहुत कम होगा और 2 बहुत अधिक होगा। कई बार मैंने इसे किसी भी तरह से एक निश्चित, अलौकिक मानदंड के रूप में गलत तरीके से देखा है, इसे दूर करने के लिए मुझे खुशी होगी। अब हम सभी के पास कंप्यूटर हैं जो सभी डेटा दिखा सकते हैं!
निक कॉक्स

जवाबों:


25

छोटे भूखंड

यहाँ Hoaglin, Mosteller और Tukey (2000) से एक प्रासंगिक खंड है : अंडरस्टैंडिंग रोबस्ट एंड एक्सप्लोसिटरी डेटा एनालिसिस। विली । अध्याय 3, "बॉक्सप्लॉट्स एंड बैच कम्पेरिजन", जॉन डी। एमर्सन और जूडिथ स्ट्रेनियो द्वारा लिखित (पृष्ठ 62 से):

[...] डेटा मूल्यों के रूप में आउटलेर्स की हमारी परिभाषा जो से छोटी है FL32dFFU+32dF

FLFUdFFUFL

वे आगे बढ़ते हैं और गाऊसी आबादी को आवेदन दिखाते हैं (पृष्ठ 63):

0100.67450.67451.34943322.02352±2.69822399.3%

इसलिए

0.7%

इसके अलावा, वे लिखते हैं

[...] इस प्रकार हम आंकलन कर सकते हैं कि क्या हमारा डेटा गाऊसी की तुलना में भारी-पूंछ वाला लगता है कि कितने अंक आउटरऑफ से परे हैं। [...]

वे मानों के अपेक्षित अनुपात के साथ एक तालिका प्रदान करते हैं जो बाहरी कटऑफ के बाहर आते हैं ("कुल% बाहर" लेबल):

तालिका 3-2

तो ये कटऑफ जहां डेटा अंक क्या हैं या नहीं, इस बारे में सख्त नियम बनाने का इरादा नहीं है। जैसा कि आपने उल्लेख किया है, यहां तक ​​कि एक पूर्ण सामान्य वितरण से उम्मीद है कि एक बॉक्सप्लॉट में "आउटलेर्स" का प्रदर्शन होगा।


बाहरी कारकों के कारण

जहाँ तक मुझे पता है, बाह्य रूप से कोई सार्वभौमिक रूप से स्वीकृत परिभाषा नहीं है। मुझे हॉकिन्स की परिभाषा पसंद है (1980):

एक आउटलाइयर एक अवलोकन है जो अन्य टिप्पणियों से इतना विचलित करता है जैसे कि संदेह है कि यह एक अलग तंत्र द्वारा उत्पन्न किया गया था।

आदर्श रूप में, आपको केवल एक बार आउटलेर्स के रूप में डेटा बिंदुओं का इलाज करना चाहिए, क्योंकि आप समझते हैं कि वे बाकी डेटा से संबंधित क्यों नहीं हैं। एक साधारण नियम पर्याप्त नहीं है। अग्रवाल का एक अच्छा इलाज अग्रवाल (2013) में पाया जा सकता है।

संदर्भ

अग्रवाल सीसी (2013): बाहरी विश्लेषण। स्प्रिंगर।
हॉकिन्स डी (1980): आउटलेर्स की पहचान। चैपमैन और हॉल।
Hoaglin, Mosteller and Tukey (2000): अंडरस्टैंडिंग रोबस्ट एंड एक्सप्लोसिटरी डेटा एनालिसिस। विले।


7

'आउटलाइयर' शब्द का अर्थ अक्सर ऐसा माना जाता है कि 'एक डेटा वैल्यू जो गलत, भ्रामक, गलत या टूटी हुई है और इसलिए इसे विश्लेषण से छोड़ दिया जाना चाहिए', लेकिन टर्की के आउटलाइन के उपयोग का मतलब यह नहीं है। आउटलेर्स बस पॉइंट्स हैं जो डेटासेट के मध्य से लंबा रास्ता तय करते हैं।

कई डेटासेट में आउटलेर से उम्मीद करने के बारे में आपकी बात सही और महत्वपूर्ण है। और विषय पर कई अच्छे प्रश्न और उत्तर हैं।

असममित डेटा से आउटलेर्स हटाना

क्या आउटलेयर की पहचान करना और हटाना उचित है क्योंकि वे समस्याएँ पैदा करते हैं?


2

जैसा कि सभी बाह्य तरीकों का पता लगा रहे हैं, देखभाल और विचार का उपयोग यह निर्धारित करने के लिए किया जाना चाहिए कि मूल्य वास्तव में क्या हैं। मुझे लगता है कि बॉक्सप्लॉट बस डेटा के प्रसार का एक अच्छा दृश्य प्रदान करता है और किसी भी सच्चे आउटलेयर को पकड़ना आसान होगा।


0

मुझे लगता है कि आपको चिंतित होना चाहिए यदि आपको सामान्य वितरण के हिस्से के रूप में कुछ आउटलेर नहीं मिलते हैं, अन्यथा शायद आपको ऐसे कारणों की तलाश करनी चाहिए जो कोई भी नहीं हैं। स्पष्ट रूप से उन्हें यह सुनिश्चित करने के लिए समीक्षा की जानी चाहिए कि वे त्रुटियों को दर्ज नहीं कर रहे हैं, लेकिन अन्यथा उन्हें उम्मीद की जानी चाहिए।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.