ये डेटा एक लघु वितरण की तुलना में एक छोटी पूंछ है, गामा वितरण के विपरीत नहीं:
set.seed(17)
par(mfcol=c(1,1))
x <- rgamma(500, 1.9)
qqnorm(log(x), pch=20, cex=.8, asp=1)
abline(mean(log(x)) + .1,1.2*sd(log(x)), col="Gray", lwd=2)
फिर भी, डेटा क्योंकि रहे हैं दृढ़ता से सही-विषम, हम सबसे बड़ा मूल्यों मतलब और उसके विश्वास अंतराल का आकलन करने में एक महत्वपूर्ण भूमिका निभाने के लिए उम्मीद कर सकते हैं। इसलिए हम आशा करते हैं चाहिए कि एक lognormal (एल.एन.) आकलनकर्ता के लिए करते हैं जाएगा जिआदा मतलब और दो आत्मविश्वास सीमा ।
आइए जांच करें और तुलना के लिए, सामान्य अनुमानकों का उपयोग करें: अर्थात्, नमूना मतलब और इसका सामान्य-सिद्धांत आत्मविश्वास अंतराल। ध्यान दें कि सामान्य अनुमानक केवल नमूना माध्य की अनुमानित सामान्यता पर निर्भर करते हैं , डेटा के नहीं, और - इतने बड़े डेटासेट के साथ - अच्छी तरह से काम करने की उम्मीद की जा सकती है। ऐसा करने के लिए, हमें ci
फ़ंक्शन के एक मामूली संशोधन की आवश्यकता है :
ci <- function (x, alpha=.05) {
z <- -qnorm(alpha / 2)
y <- log(x); n <- length(y); s2 <- var(y)
m <- mean(y) + s2 / 2
d <- z * sqrt(s2 / n + s2 * s2 / (2 * (n - 1)))
exp(c(mean=m, lcl=m-d, ucl=m+d))
}
सामान्य-सिद्धांत अनुमानों के लिए यहाँ एक समानांतर कार्य है:
ci.u <- function(x, alpha=.05) {
mean(x) + sd(x) * c(mean=0, lcl=1, ucl=-1) / sqrt(length(x)) * qnorm(alpha/2)
}
इस सिम्युलेटेड डेटासेट पर लागू होता है, आउटपुट हैं
> ci(x)
mean lcl ucl
2.03965 1.87712 2.21626
> ci.u(x)
mean lcl ucl
1.94301 1.81382 2.07219
सामान्य-थ्योरी अनुमानci.u
के वास्तविक माध्य से थोड़ा अधिक दिखाई देता है , लेकिन एक डेटासेट से यह बताना मुश्किल है कि कौन सी प्रक्रिया बेहतर काम करती है। पता लगाने के लिए, चलो बहुत सारे डेटासेट का अनुकरण करते हैं:1.9
trial <- function(n=500, k=1.9) {
x <- rgamma(n, k)
cbind(ci(x), ci.u(x))
}
set.seed(17)
sim <- replicate(5000, trial())
हम के सही मतलब के लिए आउटपुट की तुलना करने में रुचि रखते हैं । हिस्टोग्राम्स का एक पैनल इस संबंध में खुलासा कर रहा है:1.9
xmin <- min(sim)
xmax <- max(sim)
h <- function(i, ...) {
b <- seq(from=floor(xmin*10)/10, to=ceiling(xmax*10)/10, by=0.1)
hist(sim[i,], freq=TRUE, breaks=b, col="#a0a0FF", xlab="x", xlim=c(xmin, xmax), ...)
hist(sim[i,sim[i,] >= 1.9], add=TRUE,freq=TRUE, breaks=b, col="#FFa0a0",
xlab="x", xlim=c(xmin, xmax), ...)
}
par(mfcol=c(2,3))
h(1, main="LN Estimate of Mean")
h(4, main="Sample Mean")
h(2, main="LN LCL")
h(5, main="LCL")
h(3, main="LN UCL")
h(6, main="UCL")
अब यह स्पष्ट है कि लॉगऑनॉर्मल प्रक्रियाएं औसत और आत्मविश्वास की सीमा को कम करती हैं, जबकि सामान्य प्रक्रियाएं अच्छा काम करती हैं। हम विश्वास अंतराल प्रक्रियाओं के कवरेज का अनुमान लगा सकते हैं:
> sapply(c(LNLCL=2, LCL=5, LNUCL=3, UCL=6), function(i) sum(sim[i,] > 1.9)/dim(sim)[2])
LNLCL LCL LNUCL UCL
0.2230 0.0234 1.0000 0.9648
यह गणना कहती है:
एलएन निचली सीमा 22.3% समय (इच्छित 2.5% के बजाय) के बारे में सही मतलब को कवर करने में विफल हो जाएगी।
सामान्य निचली सीमा वास्तविक समय के लगभग 2.3% को कवर करने में विफल रहेगी, जो कि इच्छित 2.5% के करीब है।
एलएन ऊपरी सीमा हमेशा सही मतलब से अधिक होगी (इसके बजाय नीचे गिरने का समय 2.5% समय के अनुसार)। यह इसे दो-तरफा 100% बनाता है - (22.3% + 0%) = 95% आत्मविश्वास अंतराल के बजाय 77.7% विश्वास अंतराल।
सामान्य ऊपरी सीमा 100 - 96.5 = 3.5% समय के बारे में सही मतलब को कवर करने में विफल रहेगी। यह 2.5% के अनुमानित मूल्य से थोड़ा अधिक है। इसलिए सामान्य सीमा में दो तरफा 100% - (2.3% + 3.5%) = 94.2% विश्वास अंतराल के बजाय 95% विश्वास अंतराल शामिल है।
सामान्य अंतराल के लिए नाममात्र कवरेज की 95% से 77.7% तक की कमी भयानक है। सामान्य अंतराल के लिए 94.2% की कमी बिल्कुल भी खराब नहीं होती है और इसे तिरछापन के प्रभाव के लिए जिम्मेदार ठहराया जा सकता है (कच्चे डेटा का, उनके लघुगणक का नहीं)।
हमें यह निष्कर्ष निकालना होगा कि माध्य के आगे के विश्लेषण को लोगनॉर्मलिटी नहीं मानना चाहिए ।
सावधान रहे! कुछ प्रक्रियाएँ (जैसे कि भविष्यवाणी सीमाएँ) इस अर्थ के लिए आत्मविश्वास सीमा से अधिक तिरछी होती हैं, इसलिए उनके तिरछे वितरण के लिए जिम्मेदार हो सकते हैं। हालांकि, यह संभावना नहीं लगती है कि लॉगऑनॉर्मल प्रक्रियाएं इन आंकड़ों के साथ व्यावहारिक रूप से किसी भी इच्छित विश्लेषण के लिए अच्छा प्रदर्शन करेंगी।