ध्यान दें कि शापिरो-विलक सामान्यता का एक शक्तिशाली परीक्षण है।
सर्वोत्तम दृष्टिकोण वास्तव में इस बात का एक अच्छा विचार है कि किसी भी प्रक्रिया का आप कितना संवेदनशील उपयोग करना चाहते हैं, जो विभिन्न प्रकार की गैर-सामान्यता के लिए है (कितनी बुरी तरह से गैर-सामान्य है, इसके लिए इस तरह से होना चाहिए कि वह आपकी तुलना में अधिक प्रभावित हो। स्वीकार कर सकते हैं)।
भूखंडों को देखने के लिए एक अनौपचारिक दृष्टिकोण कई डेटा सेट उत्पन्न करना होगा जो वास्तव में उसी नमूना आकार के सामान्य हैं जो आपके पास हैं - (उदाहरण के लिए, उनमें से 24 कहते हैं)। इस तरह के भूखंडों की ग्रिड के बीच अपना वास्तविक डेटा प्लॉट करें (24 यादृच्छिक सेटों के मामले में 5x5)। यदि यह विशेष रूप से असामान्य नहीं है (सबसे खराब दिखने वाला, कहते हैं), तो यह सामान्य रूप से यथोचित संगत है।
मेरी नज़र में, केंद्र में "Z" डेटा सेट "o" और "v" के साथ बराबर होता है और शायद "h" के साथ भी, जबकि "d" और "f" थोड़ा खराब दिखता है। "Z" वास्तविक डेटा है। जब मैं एक पल के लिए विश्वास नहीं करता कि यह वास्तव में सामान्य है, यह सामान्य रूप से असामान्य नहीं है जब आप इसकी तुलना सामान्य डेटा से करते हैं।
[संपादित करें: मैंने अभी-अभी एक यादृच्छिक पोल आयोजित किया है - ठीक है, मैंने अपनी बेटी से पूछा, लेकिन काफी यादृच्छिक समय पर - और एक सीधी रेखा की तरह कम से कम उसकी पसंद "डी" थी। तो उन सर्वेक्षणों में से 100% ने सोचा "घ" सबसे अजीब था।]
शापिरो-फ्रांसिया परीक्षण (जो QQ- प्लॉट में सहसंबंध पर प्रभावी रूप से आधारित है) करने के लिए और अधिक औपचारिक दृष्टिकोण होगा, लेकिन (ए) यह शापिरो विल्क परीक्षण जितना शक्तिशाली भी नहीं है, और (बी) औपचारिक उत्तर सवाल (कभी-कभी) जिसे आपको पहले से ही किसी भी तरह से जवाब पता होना चाहिए (आपके डेटा से वितरण बिल्कुल सामान्य नहीं था), सवाल के बजाय आपको उत्तर दिया जाना चाहिए (उस मामले में कितना बुरा है?)।
अनुरोध के अनुसार, उपरोक्त प्रदर्शन के लिए कोड। कुछ भी शामिल नहीं फैंसी:
z = lm(dist~speed,cars)$residual
n = length(z)
xz = cbind(matrix(rnorm(12*n),nr=n),z,matrix(rnorm(12*n),nr=n))
colnames(xz) = c(letters[1:12],"Z",letters[13:24])
opar = par()
par(mfrow=c(5,5));
par(mar=c(0.5,0.5,0.5,0.5))
par(oma=c(1,1,1,1));
ytpos = (apply(xz,2,min)+3*apply(xz,2,max))/4
cn = colnames(xz)
for(i in 1:25) {
qqnorm(xz[,i],axes=FALSE,ylab= colnames(xz)[i],xlab="",main="")
qqline(xz[,i],col=2,lty=2)
box("figure", col="darkgreen")
text(-1.5,ytpos[i],cn[i])
}
par(opar)
ध्यान दें कि यह केवल दृष्टांत के प्रयोजनों के लिए था; मैं एक छोटा डेटा सेट चाहता था जो मामूली गैर-सामान्य दिखता था यही कारण है कि मैंने कारों के डेटा पर एक रेखीय प्रतिगमन से अवशिष्टों का उपयोग किया (मॉडल काफी उपयुक्त नहीं है)। हालांकि, अगर मैं वास्तव में एक प्रतिगमन के लिए अवशिष्ट के सेट के लिए इस तरह के प्रदर्शन को उत्पन्न कर रहा था, तो मैं मॉडल के रूप में एक ही सभी 25 डेटा सेटों को पुनः प्राप्त करूंगा , और उनके अवशेषों के क्यूक्यू भूखंडों को प्रदर्शित करूंगा, क्योंकि अवशेष कुछ हैं। संरचना सामान्य यादृच्छिक संख्या में मौजूद नहीं है।x
(मैं कम से कम 80 के दशक के मध्य से इस तरह के भूखंडों के सेट बना रहा हूं। यदि आप मान्य हैं कि वे कैसे अपरिचित हैं, तो आप भूखंडों की व्याख्या कैसे कर सकते हैं?
और देखें:
बुजा, ए।, कुक, डी। हॉफमैन, एच।, लॉरेंस, एम। ली।, ई। के।, स्वेन, डीएफ और विकम, एच। (2009) सांख्यिकीय इन्वेंटरी फॉर इन्वेंटरी डेटा एनालिसिस एंड मॉडल डायग्नोस्टिक्स फिल। ट्रांस। आर। ए 2009 367, 4361-4383 डोई: 10.1098 / rsta.2009.0120