मैंने पिछले हफ्ते सोसाइटी फॉर पर्सनेलिटी एंड सोशल साइकोलॉजी की एक बैठक में भाग लिया था जहाँ मैंने उरी सिमोनसोहन द्वारा इस बात को इस आधार के साथ देखा कि नमूना आकार निर्धारित करने के लिए एक प्राथमिक शक्ति विश्लेषण का उपयोग करना अनिवार्य रूप से बेकार था क्योंकि इसके परिणाम मान्यताओं के प्रति इतने संवेदनशील हैं।
बेशक, यह दावा मेरे तरीकों के वर्ग में मुझे सिखाया गया था और कई प्रमुख कार्यप्रणालियों (सबसे विशेष रूप से कोहेन, 1992 ) की सिफारिशों के खिलाफ जाता है , इसलिए उरी ने अपने दावे पर असर डालते हुए कुछ सबूत पेश किए। मैंने नीचे इस साक्ष्य को फिर से बनाने का प्रयास किया है।
सादगी के लिए, आइए एक ऐसी स्थिति की कल्पना करें जहां आपके पास टिप्पणियों के दो समूह हैं और अनुमान लगाते हैं कि प्रभाव का आकार (जैसा कि मानकीकृत माध्य अंतर से मापा जाता है) है । एक मानक शक्ति गणना ( नीचे पैकेज का उपयोग करने में किया गया ) आपको बताएगा कि इस डिजाइन के साथ 80% बिजली प्राप्त करने के लिए आपको टिप्पणियों की आवश्यकता होगी ।128R
pwr
require(pwr)
size <- .5
# Note that the output from this function tells you the required observations per group
# rather than the total observations required
pwr.t.test(d = size,
sig.level = .05,
power = .80,
type = "two.sample",
alternative = "two.sided")
आमतौर पर, हालांकि, प्रभाव के प्रत्याशित आकार के बारे में हमारा अनुमान है (कम से कम सामाजिक विज्ञानों में, जो कि मेरे अध्ययन का क्षेत्र है) बस इतना - बहुत मोटा अनुमान। तब क्या होता है जब प्रभाव के आकार के बारे में हमारा अनुमान थोड़ा हट जाता है? एक त्वरित शक्ति गणना आपको बताती है कि यदि प्रभाव का आकार बजाय , तो आपको टिप्पणियों की आवश्यकता होती है - गुणा संख्या जिसके लिए आपको प्रभाव आकार के लिए पर्याप्त शक्ति की आवश्यकता होगी । इसी तरह, यदि प्रभाव का आकार , तो आपको केवल प्रभाव आकार का पता लगाने के लिए पर्याप्त शक्ति होने के लिए आपको टिप्पणियों, 70% की आवश्यकता होगी।.5 200 1.56 .5 .6 90 .50 90 200। व्यावहारिक रूप से, अनुमानित टिप्पणियों में सीमा काफी बड़ी है - से ।
इस समस्या के बारे में एक प्रतिक्रिया यह है कि एक शुद्ध अनुमान लगाने के बजाय कि प्रभाव का आकार क्या हो सकता है, आप प्रभाव के आकार के बारे में सबूत इकट्ठा करते हैं, या तो पिछले साहित्य के माध्यम से या पायलट परीक्षण के माध्यम से। बेशक, यदि आप पायलट परीक्षण कर रहे हैं, तो आप चाहते हैं कि आपका पायलट परीक्षण पर्याप्त रूप से छोटा हो, ताकि आप केवल अध्ययन को चलाने के लिए आवश्यक नमूना आकार निर्धारित करने के लिए अपने अध्ययन का एक संस्करण नहीं चला रहे हैं (यानी, आप पायलट परीक्षण में उपयोग किए गए नमूना आकार को आपके अध्ययन के नमूना आकार से छोटा होना चाहिए)।
उरी सिमोनसोहन ने तर्क दिया कि आपके शक्ति विश्लेषण में प्रयुक्त प्रभाव आकार का निर्धारण करने के उद्देश्य से पायलट परीक्षण बेकार है। निम्नलिखित सिमुलेशन पर विचार करें कि मैं किस भाग में था R
। यह अनुकरण मानता है कि जनसंख्या प्रभाव का आकार है । फिर यह आकार 40 के "पायलट परीक्षण" करता है और 10000 पायलट परीक्षणों में से प्रत्येक से अनुशंसित को सारणीबद्ध करता है ।1000 एन
set.seed(12415)
reps <- 1000
pop_size <- .5
pilot_n_per_group <- 20
ns <- numeric(length = reps)
for(i in 1:reps)
{
x <- rep(c(-.5, .5), pilot_n_per_group)
y <- pop_size * x + rnorm(pilot_n_per_group * 2, sd = 1)
# Calculate the standardized mean difference
size <- (mean(y[x == -.5]) - mean(y[x == .5])) /
sqrt((sd(y[x == -.5])^2 + sd(y[x ==.5])^2) / 2)
n <- 2 * pwr.t.test(d = size,
sig.level = .05,
power = .80,
type = "two.sample",
alternative = "two.sided")$n
ns[i] <- n
}
नीचे इस सिमुलेशन के आधार पर एक घनत्व साजिश है। मैंने पायलट परीक्षणों को छोड़ दिया है, जिसने छवि को अधिक व्याख्यात्मक बनाने के लिए से ऊपर की संख्या में टिप्पणियों की सिफारिश की है। यहां तक कि सिमुलेशन के कम चरम परिणामों पर ध्यान केंद्रित करते हुए, पायलट परीक्षणों द्वारा अनुशंसित में भारी भिन्नता है ।500 एन एस 1000
बेशक, मुझे यकीन है कि मान्यताओं की समस्या के प्रति संवेदनशीलता खराब हो जाती है क्योंकि किसी का डिजाइन अधिक जटिल हो जाता है। उदाहरण के लिए, एक यादृच्छिक प्रभाव संरचना के विनिर्देश की आवश्यकता वाले डिजाइन में, यादृच्छिक प्रभाव संरचना की प्रकृति में डिजाइन की शक्ति के लिए नाटकीय निहितार्थ होंगे।
तो, आप सभी इस तर्क के बारे में क्या सोचते हैं? एक प्राथमिक शक्ति विश्लेषण अनिवार्य रूप से बेकार है? यदि यह है, तो शोधकर्ताओं को अपने अध्ययन के आकार की योजना कैसे बनाना चाहिए?