एक बॉक्स और व्हिस्कर प्लॉट के लिए एक की मानक परिभाषा की सीमा के बाहर के बिंदु हैं , जहां और पहला चतुर्थक और डेटा की तीसरी चतुर्थांश है।
इस परिभाषा का आधार क्या है? बड़ी संख्या में अंकों के साथ, यहां तक कि एक पूरी तरह से सामान्य वितरण आउटलेर्स देता है।
उदाहरण के लिए, मान लें कि आप अनुक्रम से शुरू करते हैं:
xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)
यह अनुक्रम 4000 अंकों के डेटा की एक प्रतिशत रैंकिंग बनाता है।
qnorm
इस श्रृंखला के परिणाम के लिए सामान्यता का परीक्षण :
shapiro.test(qnorm(xseq))
Shapiro-Wilk normality test
data: qnorm(xseq)
W = 0.99999, p-value = 1
ad.test(qnorm(xseq))
Anderson-Darling normality test
data: qnorm(xseq)
A = 0.00044273, p-value = 1
परिणाम बिल्कुल अपेक्षित हैं: एक सामान्य वितरण की सामान्यता सामान्य है। एक बनाना qqnorm(qnorm(xseq))
डेटा की एक सीधी रेखा बनाता है (उम्मीद के रूप में):
यदि समान डेटा का एक बॉक्सप्लॉट बनाया जाता है, boxplot(qnorm(xseq))
तो परिणाम उत्पन्न करता है:
जब नमूना आकार पर्याप्त रूप से बड़ा होता है (इस उदाहरण में) तो बॉक्सप्लाट, इसके विपरीत shapiro.test
, ad.test
या बाहरी बिंदुओं के रूप में कई बिंदुओं की qqnorm
पहचान करता है।