विचार-विमर्श
एक क्रमपरिवर्तन परीक्षण एक डेटासेट के सभी प्रासंगिक क्रमपरिवर्तन को उत्पन्न करता है , इस तरह के प्रत्येक क्रमांकन के लिए एक निर्दिष्ट परीक्षण आँकड़ा की गणना करता है, और आँकड़ों के परिणामस्वरूप क्रमिकरण वितरण के संदर्भ में वास्तविक परीक्षण आँकड़ों का आकलन करता है । इसका आकलन करने का एक सामान्य तरीका वास्तविक आंकड़ों की तुलना में आंकड़ों के अनुपात की रिपोर्ट करना है जो (कुछ अर्थों में) "के रूप में या अधिक चरम" हैं। इसे अक्सर "पी-वैल्यू" कहा जाता है।
चूँकि वास्तविक डेटासेट उन क्रमपरिवर्तन में से एक है, इसलिए इसका आँकड़ा आवश्यक रूप से क्रमपरिवर्तन वितरण के भीतर पाए जाने वालों में होगा। इसलिए, पी-मूल्य कभी भी शून्य नहीं हो सकता है।
जब तक डेटासेट बहुत छोटा नहीं होता (लगभग 20-30 कुल संख्या से कम, आम तौर पर) या टेस्ट स्टेटिस्टिक का एक विशेष रूप से अच्छा गणितीय रूप होता है, सभी क्रमपरिवर्तन उत्पन्न करने के लिए व्यावहारिक नहीं है। (एक उदाहरण जहां सभी क्रमपरिवर्तन उत्पन्न होते हैं , आर में क्रमपरिवर्तन परीक्षण में दिखाई देता है ।) इसलिए क्रमपरिवर्तन परीक्षणों के कंप्यूटर कार्यान्वयन आमतौर पर क्रमपरिवर्तन वितरण से नमूना लेते हैं। वे कुछ स्वतंत्र यादृच्छिक क्रमपरिवर्तन उत्पन्न करके ऐसा करते हैं और आशा करते हैं कि परिणाम सभी क्रमपरिवर्तन का प्रतिनिधि नमूना हैं।
इसलिए, इस तरह के एक नमूने से प्राप्त किसी भी संख्या (जैसे कि "पी-मूल्य") केवल क्रमपरिवर्तन वितरण के गुणों के अनुमानक हैं । यह काफी संभव है - और अक्सर तब होता है जब प्रभाव बड़े होते हैं - यह अनुमानित है पी-मूल्य शून्य है। इसमें कुछ भी गलत नहीं है, लेकिन यह तुरंत हेरिटोफोर उपेक्षित मुद्दे को उठाता है कि अनुमानित पी-मूल्य सही एक से कितना भिन्न हो सकता है? क्योंकि एक अनुपात का नमूना वितरण (जैसे अनुमानित पी-मूल्य) द्विपद है, इस अनिश्चितता को एक द्विपद विश्वास अंतराल के साथ संबोधित किया जा सकता है ।
आर्किटेक्चर
एक अच्छी तरह से निर्मित कार्यान्वयन सभी मामलों में चर्चा का बारीकी से पालन करेगा। यह एक नियमितता के साथ शुरू होगा कि परीक्षण आँकड़ा की गणना करें, क्योंकि यह दो समूहों के साधनों की तुलना करने के लिए है:
diff.means <- function(control, treatment) mean(treatment) - mean(control)
डेटासेट के यादृच्छिक क्रम को उत्पन्न करने और परीक्षण आँकड़ा लागू करने के लिए एक और दिनचर्या लिखें। इस इंटरफ़ेस को कॉल करने वाले को तर्क के रूप में परीक्षण सांख्यिकीय की आपूर्ति करने की अनुमति मिलती है। यह पहले की तुलना करेगाm
सरणी तत्वों की (शेष समूह ("उपचार" समूह) के लिए एक संदर्भ समूह माना जाएगा)।
f <- function(..., sample, m, statistic) {
s <- sample(sample)
statistic(s[1:m], s[-(1:m)])
}
क्रमबद्धता परीक्षण पहले वास्तविक डेटा के लिए आँकड़ा ज्ञात करके किया जाता है (यहाँ माना जाता है कि दो सरणियों में संग्रहीत किया जाता है control
औरtreatment
) और फिर कई स्वतंत्र यादृच्छिक उसके क्रमपरिवर्तन के लिए आँकड़े खोजने:
z <- stat(control, treatment) # Test statistic for the observed data
sim<- sapply(1:1e4, f, sample=c(control,treatment), m=length(control), statistic=diff.means)
अब पी-मूल्य के द्विपद अनुमान और इसके लिए एक आत्मविश्वास अंतराल की गणना करें। एक विधि पैकेज binconf
में अंतर्निहित प्रक्रिया का उपयोग करती HMisc
है:
require(Hmisc) # Exports `binconf`
k <- sum(abs(sim) >= abs(z)) # Two-tailed test
zapsmall(binconf(k, length(sim), method='exact')) # 95% CI by default
किसी अन्य परीक्षा के परिणाम की तुलना करना बुरा नहीं है, भले ही वह काफी लागू न होने के लिए जाना जाता है: कम से कम आपको परिमाण की भावना का आदेश मिल सकता है जहां परिणाम झूठ बोलना चाहिए। इस उदाहरण में (तुलना का मतलब), एक छात्र टी-टेस्ट आमतौर पर वैसे भी एक अच्छा परिणाम देता है:
t.test(treatment, control)
इस वास्तुकला को एक अधिक जटिल स्थिति में चित्रित किया गया है, काम R
कोड के साथ , टेस्ट में चाहे चर समान वितरण का पालन करें ।
उदाहरण
100201.5
set.seed(17)
control <- rnorm(10)
treatment <- rnorm(20, 1.5)
क्रमपरिवर्तन परीक्षण चलाने के लिए पूर्ववर्ती कोड का उपयोग करने के बाद मैंने क्रमिक वितरण के नमूने के साथ एक ऊर्ध्वाधर लाल रेखा के साथ वास्तविक आंकड़े को चिह्नित करने के लिए साजिश रची:
h <- hist(c(z, sim), plot=FALSE)
hist(sim, breaks=h$breaks)
abline(v = stat(control, treatment), col="Red")
द्विपद विश्वास सीमा गणना में परिणाम हुआ
PointEst Lower Upper
0 0 0.0003688199
00.000373.16e-05
0.000370.000370.050.010.001 )।
टिप्पणियाँ
kN k/N(k+1)/(N+1)N बहुत छोटा है। जिस तरह से पी-वैल्यू का अनुमान लगाया गया है, उसे ठगने के बजाय क्रमपरिवर्तन वितरण का एक बड़ा नमूना लें।
10102=1000.0000051.611.7प्रति मिलियन भाग: रिपोर्ट किए गए छात्र की तुलना में थोड़ा छोटा है। हालांकि डेटा सामान्य यादृच्छिक संख्या जनरेटर के साथ उत्पन्न हुए थे, जो कि छात्र टी-टेस्ट का उपयोग करने का औचित्य साबित करेंगे, क्रमपरिवर्तन परीक्षा परिणाम छात्र के टी-टेस्ट परिणामों से भिन्न होते हैं, क्योंकि टिप्पणियों के प्रत्येक समूह के भीतर वितरण पूरी तरह से सामान्य नहीं हैं।
a.random
b.random
b.random
a.random
coding
lncrna