यह एक महान प्रश्न है क्योंकि यह वैकल्पिक प्रक्रियाओं की संभावना की पड़ताल करता है और हमें यह सोचने के लिए कहता है कि एक प्रक्रिया दूसरे से बेहतर क्यों और कैसे हो सकती है।
संक्षिप्त उत्तर यह है कि असीम रूप से ऐसे कई तरीके हैं जिनसे हम इस मतलब के लिए कम आत्मविश्वास की सीमा प्राप्त करने के लिए एक प्रक्रिया तैयार कर सकते हैं, लेकिन इनमें से कुछ बेहतर हैं और कुछ बदतर हैं (एक मायने में यह सार्थक और अच्छी तरह से परिभाषित है)। विकल्प 2 एक उत्कृष्ट प्रक्रिया है, क्योंकि इसका उपयोग करने वाले व्यक्ति को तुलनीय गुणवत्ता के परिणाम प्राप्त करने के लिए विकल्प 1 का उपयोग करने वाले व्यक्ति के रूप में आधे से कम डेटा एकत्र करने की आवश्यकता होगी। आधे डेटा का आम तौर पर आधा बजट और आधा समय होता है, इसलिए हम एक महत्वपूर्ण और आर्थिक रूप से महत्वपूर्ण अंतर के बारे में बात कर रहे हैं। यह सांख्यिकीय सिद्धांत के मूल्य का एक ठोस प्रदर्शन प्रदान करता है।
सिद्धांत के पुनर्वसन के बजाय, जिनमें से कई उत्कृष्ट पाठ्यपुस्तक खाते मौजूद हैं, चलो जल्दी से ज्ञात मानक विचलन के स्वतंत्र सामान्य चर के लिए तीन निम्न आत्मविश्वास सीमा (LCL) प्रक्रियाओं का पता लगाते हैं । मैंने प्रश्न द्वारा सुझाए गए तीन प्राकृतिक और होनहारों को चुना। उनमें से प्रत्येक एक वांछित आत्मविश्वास स्तर 1 द्वारा निर्धारित किया जाता है - α :n1−α
tmin=min(X1,X2,…,Xn)−kminα,n,σσkminα,n,σtminμαPr(tmin>μ)=α
विकल्प 1 बी, "अधिकतम" प्रक्रिया । निम्न आत्मविश्वास सीमा । संख्या का मान निर्धारित किया जाता है ताकि यह मौका कि सही माध्य से अधिक हो, सिर्फ ; वह है, ।tmax=max(X1,X2,…,Xn)−kmaxα,n,σσkmaxα,n,σtmaxμαPr(tmax>μ)=α
विकल्प 2, "माध्य" प्रक्रिया । निचले आत्मविश्वास की सीमा । संख्या का निर्धारित किया जाता है, ताकि से अधिक का मौका सही माध्य से अधिक हो सिर्फ ; वह है, ।tmean=mean(X1,X2,…,Xn)−kmeanα,n,σσkmeanα,n,σtmeanμαPr(tmean>μ)=α
जैसा कि सर्वविदित है, जहाँ ; मानक सामान्य वितरण का संचयी प्रायिकता कार्य है। यह प्रश्न में उद्धृत सूत्र है। एक गणितीय आशुलिपि हैkmeanα,n,σ=zα/n−−√Φ(zα)=1−αΦ
- kmeanα,n,σ=Φ−1(1−α)/n−−√.
न्यूनतम और अधिकतम प्रक्रियाओं के सूत्र कम ज्ञात हैं लेकिन निर्धारित करना आसान है:
kminα,n,σ=Φ−1(1−α1/n) ।
kmaxα,n,σ=Φ−1((1−α)1/n) ।
अनुकरण के माध्यम से, हम देख सकते हैं कि सभी तीन सूत्र काम करते हैं। निम्नलिखित Rकोड n.trialsअलग-अलग समय पर प्रयोग करता है और प्रत्येक परीक्षण के लिए सभी तीन LCL को रिपोर्ट करता है:
simulate <- function(n.trials=100, alpha=.05, n=5) {
z.min <- qnorm(1-alpha^(1/n))
z.mean <- qnorm(1-alpha) / sqrt(n)
z.max <- qnorm((1-alpha)^(1/n))
f <- function() {
x <- rnorm(n);
c(max=max(x) - z.max, min=min(x) - z.min, mean=mean(x) - z.mean)
}
replicate(n.trials, f())
}
(कोड सामान्य सामान्य वितरण के साथ काम करने के लिए परेशान नहीं करता है: क्योंकि हम माप की इकाइयों और माप पैमाने के शून्य को चुनने के लिए स्वतंत्र हैं, यह मामला , का अध्ययन करने के लिए पर्याप्त है । यही कारण है कि विभिन्न लिए कोई भी सूत्र वास्तव में पर निर्भर नहीं करता है ।)μ=0σ=1k∗α,n,σσ
10,000 परीक्षण पर्याप्त सटीकता प्रदान करेंगे। आइए सिमुलेशन चलाते हैं और उस आवृत्ति की गणना करते हैं जिसके साथ प्रत्येक प्रक्रिया वास्तविक अर्थ से कम आत्मविश्वास सीमा का उत्पादन करने में विफल रहती है:
set.seed(17)
sim <- simulate(10000, alpha=.05, n=5)
apply(sim > 0, 1, mean)
आउटपुट है
max min mean
0.0515 0.0527 0.0520
ये आवृत्तियों के निर्धारित मूल्य के काफी करीब हैं कि हम सभी तीन प्रक्रियाओं को विज्ञापित के रूप में काम कर सकते हैं: उनमें से हर एक मतलब के लिए 95% आत्मविश्वास कम आत्मविश्वास सीमा का उत्पादन करता है।α=.05
(यदि आप चिंतित हैं कि ये आवृत्तियों से थोड़ी भिन्न हैं , तो आप अधिक परीक्षण चला सकते हैं। एक लाख परीक्षणों के साथ, वे करीब भी आते हैं : ।.05.05(0.050547,0.049877,0.050274)
हालाँकि, किसी भी LCL प्रक्रिया के बारे में एक बात यह है कि न केवल इसे समय के अनुपात के अनुसार सही किया जाना चाहिए, बल्कि इसे सही करने के लिए पास होना चाहिए । उदाहरण के लिए, एक (काल्पनिक) सांख्यिकीविद् की कल्पना करें, जो एक गहरी धार्मिक संवेदनशीलता के आधार पर, डेटा को एकत्रित करने के बजाय ऑरेकल (अपोलो) से परामर्श कर सकता है और LCL संगणना कर रहा है। जब वह 95% एलसीएल के लिए भगवान से पूछती है, तो भगवान सही मायने में दिव्य होगा और उसे बताएगा कि - आखिरकार, वह एकदम सही है। लेकिन, क्योंकि देवता मानव जाति के साथ पूरी तरह से अपनी क्षमताओं को साझा करने की इच्छा नहीं रखते हैं (जो कि पतनशील रहना चाहिए), 5% समय वह एक एलसीएल देगा जोX1,X2,…,Xn100σबहुत ऊँचा। यह डेल्फ़िक प्रक्रिया भी एक 95% LCL है - लेकिन यह वास्तव में भयानक बाध्य उत्पादन के जोखिम के कारण व्यवहार में उपयोग करने के लिए एक डरावना होगा।
हम आकलन कर सकते हैं कि हमारी तीन LCL प्रक्रियाएँ कितनी सटीक हैं। एक अच्छा तरीका उनके नमूना वितरण को देखना है: समान रूप से, कई सिम्युलेटेड मूल्यों के हिस्टोग्राम भी करेंगे। वे यहाँ हैं। पहले हालांकि, उन्हें उत्पादन करने के लिए कोड:
dx <- -min(sim)/12
breaks <- seq(from=min(sim), to=max(sim)+dx, by=dx)
par(mfcol=c(1,3))
tmp <- sapply(c("min", "max", "mean"), function(s) {
hist(sim[s,], breaks=breaks, col="#70C0E0",
main=paste("Histogram of", s, "procedure"),
yaxt="n", ylab="", xlab="LCL");
hist(sim[s, sim[s,] > 0], breaks=breaks, col="Red", add=TRUE)
})

उन्हें समान एक्स अक्षों (लेकिन थोड़ा अलग ऊर्ध्वाधर अक्षों) पर दिखाया गया है। हम जिस चीज में रुचि रखते हैं
के अधिकार के लिए लाल भागों --whose क्षेत्रों आवृत्ति जिसके साथ प्रक्रियाओं का प्रतिनिधित्व असफल मतलब कम करने के लिए - वांछित राशि के बराबर के बारे में सभी कर रहे हैं । (हमने पहले ही पुष्टि कर दी थी कि संख्यात्मक रूप से।)α = .050α=.05
सिमुलेशन के परिणामों का प्रसार । जाहिर है, सही हिस्टोग्राम अन्य दो की तुलना में संकरा होता है: यह एक ऐसी प्रक्रिया का वर्णन करता है जो वास्तव में औसत ( बराबर ) मतलब को कम से कम % समय से कम कर देता है, लेकिन तब भी जब ऐसा होता है, कि अंडरस्टैमेट लगभग हमेशा के बराबर होता है। सही मतलब। अन्य दो हिस्टोग्राम लगभग उससे कम के वास्तविक अर्थ को थोड़ा और कम करने की प्रवृत्ति रखते हैं । इसके अलावा, जब वे सच्चे अर्थों को कम आंकते हैं, तो वे इसे सबसे सही प्रक्रिया से अधिक आंकते हैं। ये गुण उन्हें सही हिस्टोग्राम के लिए हीन बनाते हैं।95 2 σ 3 σ0952σ3σ
सबसे सही हिस्टोग्राम विकल्प 2, पारंपरिक LCL प्रक्रिया का वर्णन करता है।
इन स्प्रेड्स का एक उपाय सिमुलेशन परिणामों का मानक विचलन है:
> apply(sim, 1, sd)
max min mean
0.673834 0.677219 0.453829
ये संख्याएँ बताती हैं कि अधिकतम और न्यूनतम प्रक्रियाओं में समान स्प्रेड (लगभग ) और सामान्य, माध्य , प्रक्रिया में लगभग दो-तिहाई उनके प्रसार (लगभग ) हैं। यह हमारी आँखों के प्रमाण की पुष्टि करता है।0.450.680.45
मानक विचलन के वर्ग क्रमशः भिन्न, , और बराबर हैं। परिवर्तन डेटा की मात्रा से संबंधित हो सकते हैं : यदि कोई विश्लेषक अधिकतम (या मिनट ) प्रक्रिया की सिफारिश करता है , तो सामान्य प्रक्रिया द्वारा प्रदर्शित संकीर्ण प्रसार को प्राप्त करने के लिए, उनके ग्राहक को गुना अधिक डेटा प्राप्त करना होगा। - दो बार जितना हो सके। दूसरे शब्दों में, विकल्प 1 का उपयोग करके, आप विकल्प 2 का उपयोग करके अपनी जानकारी के लिए दोगुने से अधिक का भुगतान करेंगे।0.45 0.20 0.45 / 0.210.450.450.200.45/0.21