सांख्यिकीय परिकल्पना परीक्षणों के शक्ति विश्लेषण को कुछ को पूरा करके और परिणामों को बारीकी से देखकर बढ़ाया जा सकता है।
डिजाइन द्वारा, आकार का परीक्षण αकम से कम एक मौका के साथ अशक्त परिकल्पना को अस्वीकार करने का इरादा हैαजब शून्य सत्य है (इसकी अपेक्षित झूठी सकारात्मक दर )। जब हमारे पास इस संपत्ति के साथ वैकल्पिक प्रक्रियाओं के बीच चयन करने की क्षमता (या विलासिता) होती है, तो हम उन (क) को वास्तव में नाममात्र की झूठी सकारात्मक दर के करीब आते हैं और (ख) जब यह होता है तो अशक्त परिकल्पना को खारिज करने की संभावना अधिक होती है। सच नहीं।
दूसरी कसौटी पर हमें इस बात की आवश्यकता होती है कि किस तरह से और कितना शून्य सही साबित होता है। पाठ्यपुस्तक के मामलों में यह आसान है, क्योंकि विकल्प दायरे में सीमित हैं और स्पष्ट रूप से निर्दिष्ट हैं। शापिरो-विल्क जैसे वितरण परीक्षणों के साथ, विकल्प बहुत अधिक अस्पष्ट हैं: वे "गैर-सामान्य" हैं। जब वितरण परीक्षणों के बीच चयन किया जाता है, तो, विश्लेषक को यह आकलन करने के लिए अपने स्वयं के एक-ऑफ पावर अध्ययन का संचालन करने की संभावना होती है कि परीक्षण अधिक विशिष्ट वैकल्पिक परिकल्पनाओं के खिलाफ काम करते हैं जो हाथ में समस्या से चिंतित हैं।
माइकल मेयर के जवाब से प्रेरित एक उदाहरण प्रस्तुत करता है कि वैकल्पिक वितरण में छात्र टी वितरण के परिवार के समान गुण हो सकते हैं। यह परिवार, एक संख्या द्वारा परिमाणित हैν≥ १ (साथ ही स्थान और पैमाने पर) बड़े की सीमा में शामिल है ν सामान्य वितरण।
या तो स्थिति में - चाहे वास्तविक परीक्षण आकार या उसकी शक्ति का मूल्यांकन करना - हमें एक निर्दिष्ट वितरण से स्वतंत्र नमूने उत्पन्न करना चाहिए, प्रत्येक नमूने पर परीक्षण चलाएं, और उस दर का पता लगाएं जिस पर यह अशक्त परिकल्पना को खारिज करता है। हालांकि, किसी भी परीक्षा परिणाम में अधिक जानकारी उपलब्ध है: इसका पी-मूल्य। इस तरह के सिमुलेशन के दौरान उत्पादित पी-मूल्यों के सेट को बरकरार रखते हुए, हम बाद में उस दर का आकलन कर सकते हैं जिस पर परीक्षण किसी भी मूल्य के लिए शून्य को अस्वीकार कर देगा ।αहम परवाह कर सकते हैं। बिजली विश्लेषण का दिल, फिर, एक उप-प्रकार है जो इस पी-मूल्य वितरण (या तो सिमुलेशन द्वारा वर्णित है, या कभी-कभी - एक सैद्धांतिक सूत्र के साथ) उत्पन्न करता है। इसमें एक उदाहरण दिया गया है R
। इसके तर्कों में शामिल हैं
rdist
कुछ वितरण से एक यादृच्छिक नमूना बनाने के लिए एक फ़ंक्शन का नाम
n
, के अनुरोध के लिए नमूनों का आकार rdist
n.iter
ऐसे नमूनों की संख्या प्राप्त करने के लिए
...
, rdist
(जैसे कि स्वतंत्रता की डिग्री) को पारित करने के लिए कोई भी वैकल्पिक पैरामीटरν)।
शेष पैरामीटर परिणामों के प्रदर्शन को नियंत्रित करते हैं; वे मुख्य रूप से इस उत्तर में आंकड़े उत्पन्न करने के लिए एक सुविधा के रूप में शामिल हैं।
sim <- function(rdist, n, n.iter, prefix="",
breaks=seq(0, 1, length.out=20), alpha=0.05,
plot=TRUE, ...) {
# The simulated P-values.
# NB: The optional arguments "..." are passed to `rdist` to specify
# its parameters (if any).
x <- apply(matrix(rdist(n*n.iter, ...), ncol=n.iter), 2,
function(y) shapiro.test(y)$p.value)
# The histogram of P-values, if requested.
if (plot) {
power <- mean(x <= alpha)
round.n <- 1+ceiling(log(1 + n.iter * power * (1-power), base=10) / 2)
hist(x[x <= max(breaks)], xlab=paste("P value (n=", n, ")", sep=""),
breaks=breaks,
main=paste(prefix, "(power=", format(power, digits=round.n), ")", sep=""))
# Specially color the "significant" part of the histogram
hist(x[x <= alpha], breaks=breaks, col="#e0404080", add=TRUE)
}
# Return the array of P-values for any further processing.
return(x)
}
आप देख सकते हैं कि अभिकलन वास्तव में सिर्फ एक पंक्ति लेता है; कोड के बाकी हिस्टोग्राम प्लॉट करता है। वर्णन करने के लिए, आइए इसका उपयोग अपेक्षित झूठी सकारात्मक दरों की गणना करने के लिए करें। "दरें" बहुवचन में है क्योंकि एक परीक्षण के गुण आमतौर पर नमूना आकार के साथ भिन्न होते हैं। चूंकि यह सर्वविदित है कि नमूना आकार बड़े होने पर वितरण संबंधी परीक्षणों में गुणात्मक रूप से छोटे विकल्पों के खिलाफ उच्च शक्ति होती है, यह अध्ययन छोटे नमूने आकारों की एक श्रृंखला पर केंद्रित है जहां इस तरह के परीक्षण अक्सर अभ्यास में लागू होते हैं: आमतौर पर के बारे में5 सेवा 100। गणना समय बचाने के लिए, मैं केवल मूल्यों पर रिपोर्ट करता हूं n से 5 सेवा 20.
n.iter <- 10^5 # Number of samples to generate
n.spec <- c(5, 10, 20) # Sample sizes to study
par(mfrow=c(1,length(n.spec))) # Organize subsequent plots into a tableau
system.time(
invisible(sapply(n.spec, function(n) sim(rnorm, n, n.iter, prefix="DF = Inf ")))
)
मापदंडों को निर्दिष्ट करने के बाद, यह कोड भी सिर्फ एक पंक्ति है। यह निम्नलिखित उत्पादन देता है:
यह अपेक्षित रूप है: हिस्टोग्राम्स पूरे रेंज से पी-मानों के लगभग समान वितरण को दर्शाते हैं0 सेवा 1। नाममात्र आकार के साथ सेट परα=0.05, के बीच सिमुलेशन रिपोर्ट .0481 तथा 0.0499पी-मान वास्तव में उस सीमा से कम थे: ये लाल रंग में हाइलाइट किए गए परिणाम हैं। नाममात्र मूल्य के लिए इन आवृत्तियों की निकटता शापिरो-विल्क परीक्षण विज्ञापन के रूप में प्रदर्शन करती है।
(पास-पी के मानों की असामान्य रूप से उच्च आवृत्ति की ओर एक प्रवृत्ति प्रतीत होती है 1। यह थोड़ी चिंता का विषय है, क्योंकि लगभग सभी अनुप्रयोगों में केवल पी-वैल्यू ही दिखता है0.2 या कम।)
चलो अब शक्ति का आकलन करने की बारी है। के मूल्यों की पूरी श्रृंखलाν छात्र टी वितरण के लिए चारों ओर से कुछ उदाहरणों का आकलन करके पर्याप्त रूप से अध्ययन किया जा सकता है ν=100 के लिए नीचे ν=1। मुझे इस बात की जानकारी कैसे होगी? मैंने बहुत कम संख्या में पुनरावृत्तियों का उपयोग करके कुछ प्रारंभिक रन बनाए100 सेवा 1000), जो बिल्कुल भी समय नहीं लेता है। कोड को अब एक डबल लूप की आवश्यकता है (और अधिक जटिल परिस्थितियों में हमें अक्सर उन सभी पहलुओं को अलग करने के लिए ट्रिपल या चौगुनी छोरों की आवश्यकता होती है): एक यह अध्ययन करने के लिए कि शक्ति नमूना आकार के साथ कैसे बदलती है और दूसरा यह अध्ययन करने के लिए कि यह कैसे बदलती है। स्वतंत्रता की डिग्री। एक बार फिर, हालांकि, सब कुछ कोड की सिर्फ एक पंक्ति में किया जाता है (तीसरा और अंतिम):
df.spec <- c(64, 16, 4, 2, 1)
par(mfrow=c(length(n.spec), length(df.spec)))
for (n in n.spec)
for (df in df.spec)
tmp <- sim(rt, n, n.iter, prefix=paste("DF =", df, ""), df=df)
इस झांकी का थोड़ा अध्ययन शक्ति के बारे में अच्छा अंतर्ज्ञान प्रदान करता है। मैं इसके सबसे प्रमुख और उपयोगी पहलुओं पर ध्यान आकर्षित करना चाहता हूं:
जैसे-जैसे स्वतंत्रता की डिग्री कम होती जाती है ν=64 के बाईं ओर ν=1दाईं ओर, अधिक से अधिक P- मान छोटे होते हैं, जिससे पता चलता है कि एक सामान्य वितरण से इन वितरणों में भेदभाव करने की शक्ति बढ़ जाती है। (प्रत्येक प्लॉट शीर्षक में शक्ति निर्धारित की गई है: यह हिस्टोग्राम के क्षेत्र के अनुपात के बराबर है जो लाल है।)
जैसे-जैसे सैंपल साइज बढ़ता है n=5 करने के लिए शीर्ष पंक्ति पर n=20 तल पर, शक्ति भी बढ़ जाती है।
ध्यान दें कि कैसे वैकल्पिक वितरण शून्य वितरण से अधिक भिन्न होता है और नमूना आकार बढ़ता है, पी-मान बाईं ओर एकत्र करना शुरू करते हैं, लेकिन अभी भी उनमें से एक "पूंछ" है जो सभी तरह से खींचती है 1। यह शक्ति अध्ययन की विशेषता है। यह दर्शाता है कि परीक्षण एक जुआ है : यहां तक कि जब शून्य परिकल्पना का उल्लंघन किया जाता है और तब भी जब हमारा नमूना आकार काफी बड़ा होता है, तो हमारा औपचारिक परीक्षण एक महत्वपूर्ण परिणाम देने में विफल हो सकता है।
नीचे दाईं ओर चरम मामले में भी, जहां का एक नमूना 20 के साथ एक छात्र टी वितरण से तैयार किया गया है 1 स्वतंत्रता की डिग्री (एक कैची वितरण), शक्ति नहीं है 1: वहां एक है 100−86.57=13% मौका है कि का एक नमूना 20 iid कॉची के वेरिएंट को सामान्य स्तर से काफी अलग नहीं माना जाएगा 5% (यह है, के साथ 95% आत्मविश्वास)।
हम किसी भी मूल्य पर शक्ति का आकलन कर सकते हैं αहम इन हिस्टोग्राम पर सलाखों के कम या ज्यादा रंग करके चुनते हैं। उदाहरण के लिए, शक्ति का मूल्यांकन करने के लिएα=0.10, प्रत्येक हिस्टोग्राम पर बाएं दो सलाखों में रंग और कुल के एक हिस्से के रूप में इसके क्षेत्र का अनुमान लगाते हैं।
(यह मूल्यों के लिए बहुत अच्छी तरह से काम नहीं करेगा α से छोटा 0.05इस आंकड़े के साथ। व्यवहार में, कोई हिस्टोग्राम को केवल उस सीमा तक पी-मानों तक सीमित करेगा जिसका उपयोग किया जाएगा, शायद उससे0 सेवा 20%, और उन्हें नीचे बिजली के दृश्य मूल्यांकन को सक्षम करने के लिए पर्याप्त विस्तार से दिखाएं α=0.01 या और भी α=0.005। (यह वह breaks
विकल्प है जिसके लिए विकल्प sim
है।) अनुकार परिणामों की पोस्ट-प्रोसेसिंग और भी अधिक विवरण प्रदान कर सकती है।)
यह मनोरंजक है कि इतने से क्या चमक सकता है, वास्तव में, कोड की तीन पंक्तियों तक की मात्रा: एक निर्दिष्ट वितरण से आईआईडी नमूनों को अनुकरण करने के लिए, एक इसे शून्य वितरण की एक सरणी में लागू करने के लिए, और तीसरी इसे लागू करने के लिए। वैकल्पिक वितरण की एक सरणी। ये तीन चरण हैं जो किसी भी शक्ति विश्लेषण में जाते हैं: बाकी केवल परिणामों का सारांश और व्याख्या है।