आपके डेटा का वितरण सामान्य होने की आवश्यकता नहीं है, यह नमूना वितरण है जो लगभग सामान्य होना चाहिए। यदि आपका नमूना आकार काफी बड़ा है, तो केंद्रीय सीमा प्रमेय के कारण, लैंडौ वितरण से साधनों का नमूना वितरण लगभग सामान्य होना चाहिए ।
तो इसका मतलब है कि आपको अपने डेटा के साथ सुरक्षित रूप से टी-टेस्ट का उपयोग करने में सक्षम होना चाहिए।
उदाहरण
आइए इस उदाहरण पर विचार करें: मान लें कि हमारे पास मुन = 0 और sd = 0.5 के साथ Lognormal वितरण की आबादी है (यह Landau के समान दिखता है)
इसलिए हम नमूना के माध्य की गणना करते हुए हर बार इस वितरण से ५००० बार नमूना लेते हैं
और यही हमें मिलता है
बिल्कुल सामान्य लगता है, है ना? यदि हम नमूना आकार बढ़ाते हैं, तो यह और भी स्पष्ट है
आर कोड
x = seq(0, 4, 0.05)
y = dlnorm(x, mean=0, sd=0.5)
plot(x, y, type='l', bty='n')
n = 30
m = 1000
set.seed(0)
samp = rep(NA, m)
for (i in 1:m) {
samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}
hist(samp, col='orange', probability=T, breaks=25, main='sample size = 30')
x = seq(0.5, 1.5, 0.01)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))
n = 300
samp = rep(NA, m)
for (i in 1:m) {
samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}
hist(samp, col='orange', probability=T, breaks=25, main='sample size = 300')
x = seq(1, 1.25, 0.005)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))