इष्टतम नमूना आकार तक पहुंचने से पहले ए / बी परीक्षण को रोकना गलत क्यों है?

मैं अपनी कंपनी में ए / बी परीक्षणों (वेबसाइट विविधताओं पर रन) के परिणाम पेश करने का प्रभारी हूं। हम एक महीने के लिए परीक्षण चलाते हैं और तब पी-मानों को नियमित अंतराल पर जांचते हैं जब तक कि हम महत्व तक नहीं पहुंच जाते हैं (या यदि लंबे समय तक परीक्षण चलाने के बाद महत्व नहीं दिया जाता है) को छोड़ दें, तो मुझे जो कुछ पता चल रहा है वह गलत है ।

मैं अब इस अभ्यास को रोकना चाहता हूं, लेकिन ऐसा करने के लिए, मैं समझना चाहता हूं कि यह गलत क्यों है। मैं समझता हूं कि प्रभाव आकार, नमूना आकार (एन), अल्फा महत्व मानदंड (α) और सांख्यिकीय शक्ति, या चुने हुए या निहित बीटा (β) गणितीय रूप से संबंधित हैं। जब हम आवश्यक नमूना आकार तक पहुँचने से पहले अपने परीक्षण को रोकते हैं तो वास्तव में क्या बदलता है?

मैंने यहाँ कुछ पोस्ट पढ़ी हैं (अर्थात् यह , यह और यह ), और उन्होंने मुझे बताया कि मेरे अनुमान पक्षपाती होंगे और मेरी टाइप 1 त्रुटि की दर नाटकीय रूप से बढ़ जाती है। लेकिन ऐसा कैसे होता है? मैं एक गणितीय स्पष्टीकरण की तलाश में हूं , कुछ ऐसा जो स्पष्ट रूप से परिणामों पर नमूना आकार के प्रभाव को दिखाएगा। मुझे लगता है कि मेरे द्वारा ऊपर बताए गए कारकों के बीच संबंधों के साथ कुछ करना है, लेकिन मैं सटीक सूत्रों का पता लगाने और उन्हें अपने दम पर काम करने में सक्षम नहीं हूं।

उदाहरण के लिए, समय से पहले परीक्षण रोक देने से टाइप 1 त्रुटि दर बढ़ जाती है। ठीक है। पर क्यों? टाइप 1 त्रुटि दर बढ़ाने के लिए क्या होता है? मुझे यहाँ अंतर्ज्ञान याद आ रहा है।

कृपया मदद करें।

— SGK
स्रोत

उपयोगी हो सकता है evanmiller.org/how-not-to-run-an-ab-test.html

— seanv507

हां मैं इस लिंक के माध्यम से गया था, लेकिन मैं अभी दिए गए उदाहरण को नहीं समझ पाया।

— sgk

क्षमा करें गोपालकृष्णन - नहीं देखा था कि आपका पहला लिंक पहले ही इंगित कर चुका है।

— seanv507

क्या आप समझा सकते हैं कि आप क्या नहीं समझते हैं। गणित / अंतर्ज्ञान बहुत स्पष्ट लगता है: इसका इतना आवश्यक नमूना आकार से पहले रोकना नहीं है, लेकिन बार-बार जांच कर रहा है। , इसलिए आप कई बार सिंगल चेक के लिए डिज़ाइन किए गए टेस्ट का उपयोग नहीं कर सकते।

P (\cup_{i \in 1 \dots N} x_{i} > θ) \geq P (x_{N} > θ)

$P(\cup _{i \in 1\dots N} x_i>\theta) \ge P( x_N>\theta)$

— seanv507

@ गोपालकृष्णनशंकर गणितीय व्याख्या मेरे उत्तर में दी गई है

— तोमका

जवाबों:

ए / बी परीक्षण जो एक निश्चित प्रकार -1 त्रुटि ( ) स्तर के साथ एक ही डेटा पर बार-बार परीक्षण करते हैं, मौलिक रूप से त्रुटिपूर्ण हैं। ऐसा होने के कम से कम दो कारण हैं। सबसे पहले, दोहराया परीक्षणों को सहसंबद्ध किया जाता है लेकिन परीक्षण स्वतंत्र रूप से आयोजित किए जाते हैं। दूसरा, फिक्स्ड टाइप -1 त्रुटि मुद्रास्फीति के लिए गुणा किए गए परीक्षणों के लिए जिम्मेदार नहीं है। $\alpha$ $\alpha$

पहले देखने के लिए, मान लें कि प्रत्येक नए अवलोकन पर आप एक नई परीक्षा आयोजित करते हैं। स्पष्ट रूप से किसी भी दो बाद के पी-मूल्यों को सहसंबद्ध किया जाएगा क्योंकि दोनों परीक्षणों के बीच मामले नहीं बदले हैं। फलस्वरूप हमें @ बर्नहार्ड के कथानक में पी-मान के इस सहसंबंध को प्रदर्शित करते हुए एक प्रवृत्ति दिखाई देती है। $n-1$

दूसरी देखने के लिए, हम ध्यान दें कि परीक्षण स्वतंत्र नीचे एक पी-मूल्य होने की संभावना हैं परीक्षण की संख्या के साथ बढ़ जाती है जहां है एक मिथ्या खारिज की परिकल्पना की घटना। तो कम से कम एक सकारात्मक परीक्षा परिणाम होने की संभावना खिलाफ जाती है क्योंकि आप बार-बार ए / बी परीक्षण करते हैं। यदि आप पहले सकारात्मक परिणाम के बाद बस रुक जाते हैं, तो आपने केवल इस सूत्र की शुद्धता दिखाई होगी। अलग तरह से रखो, भले ही अशक्त परिकल्पना सच हो लेकिन आप अंततः इसे अस्वीकार कर देंगे। ए / बी परीक्षण इस प्रकार उन प्रभावों को खोजने का अंतिम तरीका है जहां कोई नहीं हैं। $\alpha$ $t$

P (A) = 1 - (1 - α)^{t},

$P(A) = 1-(1-\alpha)^t,$

A

$A$

1

$1$

चूंकि इस स्थिति में सहसंबंध और बहु परीक्षण दोनों एक ही समय में होते हैं, परीक्षण का p- मान के p- मान पर निर्भर करता । इसलिए यदि आप अंततः एक तक पहुंचते हैं, तो आप इस क्षेत्र में कुछ समय तक रहने की संभावना रखते हैं। आप 2500 से 3500 और 4000 से 5000 के क्षेत्र में @ बर्नहार्ड के प्लॉट में भी इसे देख सकते हैं। $t+1$ $t$ $p< \alpha$

प्रति-एकाधिक परीक्षण वैध है, लेकिन एक निश्चित खिलाफ परीक्षण नहीं है। कई प्रक्रियाएं हैं जो कई परीक्षण प्रक्रिया और सहसंबद्ध परीक्षण दोनों से निपटती हैं। परीक्षण सुधारों के एक परिवार को पारिवारिक वार त्रुटि दर नियंत्रण कहा जाता है । को आश्वस्त करने के लिए वे क्या करते हैं $\alpha$

P (A) \leq α .

$P(A) \le \alpha.$

यकीनन सबसे प्रसिद्ध समायोजन (इसकी सादगी के कारण) बोन्फेरोनी है। यहाँ हम जिसके लिए यह आसानी से दिखाया जा सकता है कि स्वतंत्र परीक्षणों की संख्या बड़ी है तो । यदि परीक्षण सहसंबद्ध हैं, तो यह रूढ़िवादी होने की संभावना है, । तो आप जो सबसे आसान समायोजन कर सकते हैं, वह आपके द्वारा पहले से किए गए परीक्षणों की संख्या से आपके अल्फा स्तर को से विभाजित कर रहा है।

α_{a d j} = α / t,

$\alpha_{adj} = \alpha/t,$

P (A) \approx α

$P(A) \approx \alpha$

P (A) < α

$P(A) < \alpha$

0.05

$0.05$

अगर हम @ बर्नहार्ड के अनुकरण के लिए को लागू करते हैं, और y- अक्ष पर अंतराल में ज़ूम करते हैं, तो हम नीचे दिए गए प्लॉट को हैं। स्पष्टता के लिए मैंने माना कि हम प्रत्येक सिक्के के फ्लिप (परीक्षण) के बाद परीक्षण नहीं करते हैं, लेकिन केवल हर सौवें। काली धराशायी रेखा मानक कट ऑफ है और लाल धराशायी रेखा बोन्फेरोनी समायोजन है। $(0,0.1)$ $\alpha = 0.05$

जैसा कि हम देख सकते हैं कि समायोजन बहुत प्रभावी है और यह दर्शाता है कि हमें परिवार की त्रुटि दर को नियंत्रित करने के लिए पी-वैल्यू को कितना मौलिक बदलना है। विशेष रूप से अब हमें कोई महत्वपूर्ण परीक्षण नहीं मिला है, क्योंकि ऐसा होना चाहिए क्योंकि @ बरहार्ड की अशक्त परिकल्पना सच है।

ऐसा किए जाने के बाद, हम ध्यान दें कि सहसंबंधित परीक्षणों के कारण इस स्थिति में बोन्फेरोनी बहुत रूढ़िवादी हैं। बेहतर परीक्षण हैं जो इस स्थिति में के अर्थ में अधिक उपयोगी होंगे , जैसे कि क्रमपरिवर्तन परीक्षण । इसके अलावा बोन्फ्रनोई (उदाहरण के लिए झूठी खोज दर और संबंधित बायेसियन तकनीक देखें) की तुलना में परीक्षण के बारे में कहने के लिए बहुत कुछ है। फिर भी यह आपके प्रश्नों का न्यूनतम गणित के साथ उत्तर देता है। $P(A) \approx \alpha$

यहाँ कोड है:

set.seed(1)
n=10000
toss <- sample(1:2, n, TRUE)

p.values <- numeric(n)
for (i in 5:n){
  p.values[i] <- binom.test(table(toss[1:i]))$p.value
}
p.values = p.values[-(1:6)]
plot(p.values[seq(1, length(p.values), 100)], type="l", ylim=c(0,0.1),ylab='p-values')
abline(h=0.05, lty="dashed")
abline(v=0)
abline(h=0)
curve(0.05/x,add=TRUE, col="red", lty="dashed")

— Tomka
स्रोत

यह मेरे लिए काम करता है। मुझे अपनी बात अब अपने सीनियर्स तक पहुंचाने के लिए बिजनेस-स्पोक में अनुवाद करना होगा, लेकिन यह मेरी अपनी समस्या है। बहुत बहुत धन्यवाद

— sgk

यदि अशक्त परिकल्पना सच है, तो लोग अक्सर पी मूल्य बहुत अधिक होने की उम्मीद करते हैं। यह सच नहीं है। यदि शून्य परिकल्पना सच है, तो पी एक समान रूप से वितरित यादृच्छिक चर है। मतलब, कि समय-समय पर बेतरतीब ढंग से 0.05 से नीचे होगा। यदि आप कई अलग-अलग उपसमूहों को देखते हैं, तो कभी-कभी पी मान 0.05 से नीचे होगा।

यह समझना आसान बनाने के लिए, यहाँ एक छोटा सा अनुकरण है R:

यह एक सिक्का 10,000 बार फेंकेगा और हम जानते हैं, यह एक उचित सिक्का है:

set.seed(1)
n=10000
toss <- sample(1:2, n, TRUE)

5 वीं टॉस से शुरू, यह हर टॉस के बाद निष्पक्षता के लिए द्विपद परीक्षण करेगा और पी मूल्यों को बचाएगा:

p.values <- numeric(n)
for (i in 5:n){
     p.values[i] <- binom.test(table(toss[1:i]))$p.value
}

और यह पी-वैल्यू को एक के बाद एक प्लॉट करेगा:

plot(p.values, type="l")
abline(h=0.05)

$H_0$ $H_0$

(बस पूरी तरह से खुला होने के लिए, मैंने संख्या जनरेटर के लिए एक से अधिक बीज की कोशिश की है, इससे पहले कि यह उदाहरण के रूप में स्पष्ट था, लेकिन यह शैक्षिक उद्देश्यों के लिए उचित है। यदि आपने Rस्थापित किया है और चल रहा है, तो आप आसानी से संख्याओं के साथ खेल सकते हैं। ।)

— बर्नहार्ड
स्रोत

सरल प्रयोग के लिए धन्यवाद। लेकिन कहते हैं कि मैंने इस तरह के एक चरण में परीक्षण बंद कर दिया (जब पी-मूल्य <0.05), मेरे परिणामों का क्या मतलब होगा? (इस तथ्य के अलावा कि यह गलत है)। क्या पी-वैल्यू थ्रेशोल्ड को कम करके मेरे लिए क्षतिपूर्ति करना संभव है?

— sgk

+1 सहसंबद्ध परीक्षण और संबंधित कई परीक्षण समस्या पर ध्यान दें। नीचे दिए गए समायोजन विकल्पों के साथ मेरा विस्तृत उत्तर देखें, आपके (बहुत अच्छे) उदाहरण के आधार पर।

— टॉमका

α

$\alpha$

α

$\alpha$

मेरा मुख्य बिंदु पारिवारिक बुद्धिमान त्रुटि (एफडब्ल्यूईआर) दर या झूठी खोज दर (एफडीआर) दोनों को लक्षित करना है जो टाइप -1 त्रुटि को नियंत्रित करता है। टाइप -2 त्रुटि को नियंत्रित करना आमतौर पर बहुत बड़े नमूनों के कारण / बी परीक्षणों में एक समस्या से कम नहीं है।

— टॉमका

p = 0.05

$p=0.05$