इस समस्या का एक खोजपूर्ण अनुभव है। जॉन टुके ने अपने क्लासिक, एक्सप्लोसिटरी डेटा एनालिसिस (एडिसन-वेसस 1977) में विषमलैंगिकता की खोज के लिए कई प्रक्रियाओं का वर्णन किया है । शायद सबसे सीधे उपयोगी उसकी " भटकती योजनाबद्ध साजिश " का एक प्रकार है । यह एक चर (जैसे कि अनुमानित मूल्य) को डिब्बे में स्लाइस करता है और प्रत्येक बिन के लिए दूसरे चर के स्थान, प्रसार और आकार को दिखाने के लिए एम-अक्षर सारांश (बॉक्सप्लेट के सामान्यीकरण) का उपयोग करता है। मौका विचलन के बजाय समग्र पैटर्न पर जोर देने के लिए एम-अक्षर के आंकड़ों को और अधिक सुचारू किया जाता है।
एक त्वरित संस्करण में boxplot
प्रक्रिया का फायदा उठाकर पकाया जा सकता है R
। हम स्पष्ट रूप से विषम डेटा की नकल के साथ स्पष्ट करते हैं:
set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e
आइए ओएलएस प्रतिगमन से अनुमानित मूल्यों और अवशिष्टों को प्राप्त करें:
fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)
यहाँ, फिर, अनुमानित मूल्यों के लिए समान-गिनती वाले डिब्बे का उपयोग करके भटकने वाली योजनाबद्ध साजिश है। मैं lowess
एक त्वरित और गंदे चिकनी के लिए उपयोग करता हूं ।
n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25),
col=colors[i], lwd=2))
नीले रंग की वक्र मीडियन को चिकना करती है। इसकी क्षैतिज प्रवृत्ति इंगित करती है कि प्रतिगमन आम तौर पर एक अच्छा फिट है। अन्य वक्र बॉक्स के सिरों (चतुर्थांश) और बाड़ (जो आमतौर पर चरम मान हैं) को चिकना करते हैं। उनका मजबूत अभिसरण और बाद में पृथक्करण, विषमलैंगिकता की गवाही देता है - और हमें इसकी विशेषता और मात्रा निर्धारित करने में मदद करता है।
(क्षैतिज अक्ष पर ग़ैर-रेखीय पैमाने पर ध्यान दें, अनुमानित मूल्यों के वितरण को दर्शाता है। थोड़ा और अधिक काम करने के साथ इस अक्ष को रैखिक बनाया जा सकता है, जो कभी-कभी उपयोगी होता है।)