ए / बी परीक्षण जो एक निश्चित प्रकार -1 त्रुटि ( ) स्तर के साथ एक ही डेटा पर बार-बार परीक्षण करते हैं, मौलिक रूप से त्रुटिपूर्ण हैं। ऐसा होने के कम से कम दो कारण हैं। सबसे पहले, दोहराया परीक्षणों को सहसंबद्ध किया जाता है लेकिन परीक्षण स्वतंत्र रूप से आयोजित किए जाते हैं। दूसरा, फिक्स्ड टाइप -1 त्रुटि मुद्रास्फीति के लिए गुणा किए गए परीक्षणों के लिए जिम्मेदार नहीं है।ααα
पहले देखने के लिए, मान लें कि प्रत्येक नए अवलोकन पर आप एक नई परीक्षा आयोजित करते हैं। स्पष्ट रूप से किसी भी दो बाद के पी-मूल्यों को सहसंबद्ध किया जाएगा क्योंकि दोनों परीक्षणों के बीच मामले नहीं बदले हैं। फलस्वरूप हमें @ बर्नहार्ड के कथानक में पी-मान के इस सहसंबंध को प्रदर्शित करते हुए एक प्रवृत्ति दिखाई देती है।एन - 1
दूसरी देखने के लिए, हम ध्यान दें कि परीक्षण स्वतंत्र नीचे एक पी-मूल्य होने की संभावना हैं परीक्षण की संख्या के साथ बढ़ जाती है जहां है एक मिथ्या खारिज की परिकल्पना की घटना। तो कम से कम एक सकारात्मक परीक्षा परिणाम होने की संभावना खिलाफ जाती है क्योंकि आप बार-बार ए / बी परीक्षण करते हैं। यदि आप पहले सकारात्मक परिणाम के बाद बस रुक जाते हैं, तो आपने केवल इस सूत्र की शुद्धता दिखाई होगी। अलग तरह से रखो, भले ही अशक्त परिकल्पना सच हो लेकिन आप अंततः इसे अस्वीकार कर देंगे। ए / बी परीक्षण इस प्रकार उन प्रभावों को खोजने का अंतिम तरीका है जहां कोई नहीं हैं।t P ( A ) = 1 - ( 1 - α ) t , A १αटी
पी( ए ) = 1 - ( 1 - α )टी,
ए1
चूंकि इस स्थिति में सहसंबंध और बहु परीक्षण दोनों एक ही समय में होते हैं, परीक्षण का p- मान के p- मान पर निर्भर करता । इसलिए यदि आप अंततः एक तक पहुंचते हैं, तो आप इस क्षेत्र में कुछ समय तक रहने की संभावना रखते हैं। आप 2500 से 3500 और 4000 से 5000 के क्षेत्र में @ बर्नहार्ड के प्लॉट में भी इसे देख सकते हैं।t p < αटी + १टीपी < α
प्रति-एकाधिक परीक्षण वैध है, लेकिन एक निश्चित खिलाफ परीक्षण नहीं है। कई प्रक्रियाएं हैं जो कई परीक्षण प्रक्रिया और सहसंबद्ध परीक्षण दोनों से निपटती हैं। परीक्षण सुधारों के एक परिवार को पारिवारिक वार त्रुटि दर नियंत्रण कहा जाता है । को आश्वस्त करने के लिए वे क्या करते हैंपी ( ए ) ≤ अल्फा ।α
पी( ए ) ≤ α ।
यकीनन सबसे प्रसिद्ध समायोजन (इसकी सादगी के कारण) बोन्फेरोनी है। यहाँ हम जिसके लिए यह आसानी से दिखाया जा सकता है कि स्वतंत्र परीक्षणों की संख्या बड़ी है तो । यदि परीक्षण सहसंबद्ध हैं, तो यह रूढ़िवादी होने की संभावना है, । तो आप जो सबसे आसान समायोजन कर सकते हैं, वह आपके द्वारा पहले से किए गए परीक्षणों की संख्या से आपके अल्फा स्तर को से विभाजित कर रहा है।पी ( ए ) ≈ अल्फा पी ( ए ) < अल्फा 0.05
αa dजे= α / टी ,
पी( ए ) ≈ αपी( ए ) < α0.05
अगर हम @ बर्नहार्ड के अनुकरण के लिए को लागू करते हैं, और y- अक्ष पर अंतराल में ज़ूम करते हैं, तो हम नीचे दिए गए प्लॉट को हैं। स्पष्टता के लिए मैंने माना कि हम प्रत्येक सिक्के के फ्लिप (परीक्षण) के बाद परीक्षण नहीं करते हैं, लेकिन केवल हर सौवें। काली धराशायी रेखा मानक कट ऑफ है और लाल धराशायी रेखा बोन्फेरोनी समायोजन है।α = 0.05( 0 , 0.1 )α = 0.05
जैसा कि हम देख सकते हैं कि समायोजन बहुत प्रभावी है और यह दर्शाता है कि हमें परिवार की त्रुटि दर को नियंत्रित करने के लिए पी-वैल्यू को कितना मौलिक बदलना है। विशेष रूप से अब हमें कोई महत्वपूर्ण परीक्षण नहीं मिला है, क्योंकि ऐसा होना चाहिए क्योंकि @ बरहार्ड की अशक्त परिकल्पना सच है।
ऐसा किए जाने के बाद, हम ध्यान दें कि सहसंबंधित परीक्षणों के कारण इस स्थिति में बोन्फेरोनी बहुत रूढ़िवादी हैं। बेहतर परीक्षण हैं जो इस स्थिति में के अर्थ में अधिक उपयोगी होंगे , जैसे कि क्रमपरिवर्तन परीक्षण । इसके अलावा बोन्फ्रनोई (उदाहरण के लिए झूठी खोज दर और संबंधित बायेसियन तकनीक देखें) की तुलना में परीक्षण के बारे में कहने के लिए बहुत कुछ है। फिर भी यह आपके प्रश्नों का न्यूनतम गणित के साथ उत्तर देता है।पी( ए ) ≈ α
यहाँ कोड है:
set.seed(1)
n=10000
toss <- sample(1:2, n, TRUE)
p.values <- numeric(n)
for (i in 5:n){
p.values[i] <- binom.test(table(toss[1:i]))$p.value
}
p.values = p.values[-(1:6)]
plot(p.values[seq(1, length(p.values), 100)], type="l", ylim=c(0,0.1),ylab='p-values')
abline(h=0.05, lty="dashed")
abline(v=0)
abline(h=0)
curve(0.05/x,add=TRUE, col="red", lty="dashed")