एक बॉक्स और व्हिस्कर प्लॉट के लिए एक की मानक परिभाषा की सीमा के बाहर के बिंदु हैं , जहां और पहला चतुर्थक और डेटा की तीसरी चतुर्थांश है।
इस परिभाषा का आधार क्या है? बड़ी संख्या में अंकों के साथ, यहां तक कि एक पूरी तरह से सामान्य वितरण आउटलेर्स देता है।
उदाहरण के लिए, मान लें कि आप अनुक्रम से शुरू करते हैं:
xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)
यह अनुक्रम 4000 अंकों के डेटा की एक प्रतिशत रैंकिंग बनाता है।
qnormइस श्रृंखला के परिणाम के लिए सामान्यता का परीक्षण :
shapiro.test(qnorm(xseq))
Shapiro-Wilk normality test
data: qnorm(xseq)
W = 0.99999, p-value = 1
ad.test(qnorm(xseq))
Anderson-Darling normality test
data: qnorm(xseq)
A = 0.00044273, p-value = 1
परिणाम बिल्कुल अपेक्षित हैं: एक सामान्य वितरण की सामान्यता सामान्य है। एक बनाना qqnorm(qnorm(xseq))डेटा की एक सीधी रेखा बनाता है (उम्मीद के रूप में):
यदि समान डेटा का एक बॉक्सप्लॉट बनाया जाता है, boxplot(qnorm(xseq))तो परिणाम उत्पन्न करता है:
जब नमूना आकार पर्याप्त रूप से बड़ा होता है (इस उदाहरण में) तो बॉक्सप्लाट, इसके विपरीत shapiro.test, ad.testया बाहरी बिंदुओं के रूप में कई बिंदुओं की qqnormपहचान करता है।


