इष्टतम नमूना आकार तक पहुंचने से पहले ए / बी परीक्षण को रोकना गलत क्यों है?


13

मैं अपनी कंपनी में ए / बी परीक्षणों (वेबसाइट विविधताओं पर रन) के परिणाम पेश करने का प्रभारी हूं। हम एक महीने के लिए परीक्षण चलाते हैं और तब पी-मानों को नियमित अंतराल पर जांचते हैं जब तक कि हम महत्व तक नहीं पहुंच जाते हैं (या यदि लंबे समय तक परीक्षण चलाने के बाद महत्व नहीं दिया जाता है) को छोड़ दें, तो मुझे जो कुछ पता चल रहा है वह गलत है

मैं अब इस अभ्यास को रोकना चाहता हूं, लेकिन ऐसा करने के लिए, मैं समझना चाहता हूं कि यह गलत क्यों है। मैं समझता हूं कि प्रभाव आकार, नमूना आकार (एन), अल्फा महत्व मानदंड (α) और सांख्यिकीय शक्ति, या चुने हुए या निहित बीटा (β) गणितीय रूप से संबंधित हैं। जब हम आवश्यक नमूना आकार तक पहुँचने से पहले अपने परीक्षण को रोकते हैं तो वास्तव में क्या बदलता है?

मैंने यहाँ कुछ पोस्ट पढ़ी हैं (अर्थात् यह , यह और यह ), और उन्होंने मुझे बताया कि मेरे अनुमान पक्षपाती होंगे और मेरी टाइप 1 त्रुटि की दर नाटकीय रूप से बढ़ जाती है। लेकिन ऐसा कैसे होता है? मैं एक गणितीय स्पष्टीकरण की तलाश में हूं , कुछ ऐसा जो स्पष्ट रूप से परिणामों पर नमूना आकार के प्रभाव को दिखाएगा। मुझे लगता है कि मेरे द्वारा ऊपर बताए गए कारकों के बीच संबंधों के साथ कुछ करना है, लेकिन मैं सटीक सूत्रों का पता लगाने और उन्हें अपने दम पर काम करने में सक्षम नहीं हूं।

उदाहरण के लिए, समय से पहले परीक्षण रोक देने से टाइप 1 त्रुटि दर बढ़ जाती है। ठीक है। पर क्यों? टाइप 1 त्रुटि दर बढ़ाने के लिए क्या होता है? मुझे यहाँ अंतर्ज्ञान याद आ रहा है।

कृपया मदद करें।


1
उपयोगी हो सकता है evanmiller.org/how-not-to-run-an-ab-test.html
seanv507

1
हां मैं इस लिंक के माध्यम से गया था, लेकिन मैं अभी दिए गए उदाहरण को नहीं समझ पाया।
sgk

क्षमा करें गोपालकृष्णन - नहीं देखा था कि आपका पहला लिंक पहले ही इंगित कर चुका है।
seanv507

1
क्या आप समझा सकते हैं कि आप क्या नहीं समझते हैं। गणित / अंतर्ज्ञान बहुत स्पष्ट लगता है: इसका इतना आवश्यक नमूना आकार से पहले रोकना नहीं है, लेकिन बार-बार जांच कर रहा है। , इसलिए आप कई बार सिंगल चेक के लिए डिज़ाइन किए गए टेस्ट का उपयोग नहीं कर सकते। P(i1Nxi>θ)P(xN>θ)
seanv507

@ गोपालकृष्णनशंकर गणितीय व्याख्या मेरे उत्तर में दी गई है
तोमका

जवाबों:


4

ए / बी परीक्षण जो एक निश्चित प्रकार -1 त्रुटि ( ) स्तर के साथ एक ही डेटा पर बार-बार परीक्षण करते हैं, मौलिक रूप से त्रुटिपूर्ण हैं। ऐसा होने के कम से कम दो कारण हैं। सबसे पहले, दोहराया परीक्षणों को सहसंबद्ध किया जाता है लेकिन परीक्षण स्वतंत्र रूप से आयोजित किए जाते हैं। दूसरा, फिक्स्ड टाइप -1 त्रुटि मुद्रास्फीति के लिए गुणा किए गए परीक्षणों के लिए जिम्मेदार नहीं है।ααα

पहले देखने के लिए, मान लें कि प्रत्येक नए अवलोकन पर आप एक नई परीक्षा आयोजित करते हैं। स्पष्ट रूप से किसी भी दो बाद के पी-मूल्यों को सहसंबद्ध किया जाएगा क्योंकि दोनों परीक्षणों के बीच मामले नहीं बदले हैं। फलस्वरूप हमें @ बर्नहार्ड के कथानक में पी-मान के इस सहसंबंध को प्रदर्शित करते हुए एक प्रवृत्ति दिखाई देती है।n1

दूसरी देखने के लिए, हम ध्यान दें कि परीक्षण स्वतंत्र नीचे एक पी-मूल्य होने की संभावना हैं परीक्षण की संख्या के साथ बढ़ जाती है जहां है एक मिथ्या खारिज की परिकल्पना की घटना। तो कम से कम एक सकारात्मक परीक्षा परिणाम होने की संभावना खिलाफ जाती है क्योंकि आप बार-बार ए / बी परीक्षण करते हैं। यदि आप पहले सकारात्मक परिणाम के बाद बस रुक जाते हैं, तो आपने केवल इस सूत्र की शुद्धता दिखाई होगी। अलग तरह से रखो, भले ही अशक्त परिकल्पना सच हो लेकिन आप अंततः इसे अस्वीकार कर देंगे। ए / बी परीक्षण इस प्रकार उन प्रभावों को खोजने का अंतिम तरीका है जहां कोई नहीं हैं।t P ( A ) = 1 - ( 1 - α ) t , A αt

P(A)=1(1α)t,
A1

चूंकि इस स्थिति में सहसंबंध और बहु ​​परीक्षण दोनों एक ही समय में होते हैं, परीक्षण का p- मान के p- मान पर निर्भर करता । इसलिए यदि आप अंततः एक तक पहुंचते हैं, तो आप इस क्षेत्र में कुछ समय तक रहने की संभावना रखते हैं। आप 2500 से 3500 और 4000 से 5000 के क्षेत्र में @ बर्नहार्ड के प्लॉट में भी इसे देख सकते हैं।t p < αt+1tp<α

प्रति-एकाधिक परीक्षण वैध है, लेकिन एक निश्चित खिलाफ परीक्षण नहीं है। कई प्रक्रियाएं हैं जो कई परीक्षण प्रक्रिया और सहसंबद्ध परीक्षण दोनों से निपटती हैं। परीक्षण सुधारों के एक परिवार को पारिवारिक वार त्रुटि दर नियंत्रण कहा जाता है । को आश्वस्त करने के लिए वे क्या करते हैंपी ( ) अल्फा α

P(A)α.

यकीनन सबसे प्रसिद्ध समायोजन (इसकी सादगी के कारण) बोन्फेरोनी है। यहाँ हम जिसके लिए यह आसानी से दिखाया जा सकता है कि स्वतंत्र परीक्षणों की संख्या बड़ी है तो । यदि परीक्षण सहसंबद्ध हैं, तो यह रूढ़िवादी होने की संभावना है, । तो आप जो सबसे आसान समायोजन कर सकते हैं, वह आपके द्वारा पहले से किए गए परीक्षणों की संख्या से आपके अल्फा स्तर को से विभाजित कर रहा है।पी ( ) अल्फा पी ( ) < अल्फा 0.05

αadj=α/t,
P(A)αP(A)<α0.05

अगर हम @ बर्नहार्ड के अनुकरण के लिए को लागू करते हैं, और y- अक्ष पर अंतराल में ज़ूम करते हैं, तो हम नीचे दिए गए प्लॉट को हैं। स्पष्टता के लिए मैंने माना कि हम प्रत्येक सिक्के के फ्लिप (परीक्षण) के बाद परीक्षण नहीं करते हैं, लेकिन केवल हर सौवें। काली धराशायी रेखा मानक कट ऑफ है और लाल धराशायी रेखा बोन्फेरोनी समायोजन है।α = 0.05(0,0.1)α=0.05

यहाँ छवि विवरण दर्ज करें

जैसा कि हम देख सकते हैं कि समायोजन बहुत प्रभावी है और यह दर्शाता है कि हमें परिवार की त्रुटि दर को नियंत्रित करने के लिए पी-वैल्यू को कितना मौलिक बदलना है। विशेष रूप से अब हमें कोई महत्वपूर्ण परीक्षण नहीं मिला है, क्योंकि ऐसा होना चाहिए क्योंकि @ बरहार्ड की अशक्त परिकल्पना सच है।

ऐसा किए जाने के बाद, हम ध्यान दें कि सहसंबंधित परीक्षणों के कारण इस स्थिति में बोन्फेरोनी बहुत रूढ़िवादी हैं। बेहतर परीक्षण हैं जो इस स्थिति में के अर्थ में अधिक उपयोगी होंगे , जैसे कि क्रमपरिवर्तन परीक्षण । इसके अलावा बोन्फ्रनोई (उदाहरण के लिए झूठी खोज दर और संबंधित बायेसियन तकनीक देखें) की तुलना में परीक्षण के बारे में कहने के लिए बहुत कुछ है। फिर भी यह आपके प्रश्नों का न्यूनतम गणित के साथ उत्तर देता है।P(A)α


यहाँ कोड है:

set.seed(1)
n=10000
toss <- sample(1:2, n, TRUE)

p.values <- numeric(n)
for (i in 5:n){
  p.values[i] <- binom.test(table(toss[1:i]))$p.value
}
p.values = p.values[-(1:6)]
plot(p.values[seq(1, length(p.values), 100)], type="l", ylim=c(0,0.1),ylab='p-values')
abline(h=0.05, lty="dashed")
abline(v=0)
abline(h=0)
curve(0.05/x,add=TRUE, col="red", lty="dashed")

2
यह मेरे लिए काम करता है। मुझे अपनी बात अब अपने सीनियर्स तक पहुंचाने के लिए बिजनेस-स्पोक में अनुवाद करना होगा, लेकिन यह मेरी अपनी समस्या है। बहुत बहुत धन्यवाद
sgk

8

यदि अशक्त परिकल्पना सच है, तो लोग अक्सर पी मूल्य बहुत अधिक होने की उम्मीद करते हैं। यह सच नहीं है। यदि शून्य परिकल्पना सच है, तो पी एक समान रूप से वितरित यादृच्छिक चर है। मतलब, कि समय-समय पर बेतरतीब ढंग से 0.05 से नीचे होगा। यदि आप कई अलग-अलग उपसमूहों को देखते हैं, तो कभी-कभी पी मान 0.05 से नीचे होगा।

यह समझना आसान बनाने के लिए, यहाँ एक छोटा सा अनुकरण है R:

यह एक सिक्का 10,000 बार फेंकेगा और हम जानते हैं, यह एक उचित सिक्का है:

set.seed(1)
n=10000
toss <- sample(1:2, n, TRUE)

5 वीं टॉस से शुरू, यह हर टॉस के बाद निष्पक्षता के लिए द्विपद परीक्षण करेगा और पी मूल्यों को बचाएगा:

p.values <- numeric(n)
for (i in 5:n){
     p.values[i] <- binom.test(table(toss[1:i]))$p.value
}

और यह पी-वैल्यू को एक के बाद एक प्लॉट करेगा:

plot(p.values, type="l")
abline(h=0.05)

यहाँ छवि विवरण दर्ज करें

H0H0

(बस पूरी तरह से खुला होने के लिए, मैंने संख्या जनरेटर के लिए एक से अधिक बीज की कोशिश की है, इससे पहले कि यह उदाहरण के रूप में स्पष्ट था, लेकिन यह शैक्षिक उद्देश्यों के लिए उचित है। यदि आपने Rस्थापित किया है और चल रहा है, तो आप आसानी से संख्याओं के साथ खेल सकते हैं। ।)


सरल प्रयोग के लिए धन्यवाद। लेकिन कहते हैं कि मैंने इस तरह के एक चरण में परीक्षण बंद कर दिया (जब पी-मूल्य <0.05), मेरे परिणामों का क्या मतलब होगा? (इस तथ्य के अलावा कि यह गलत है)। क्या पी-वैल्यू थ्रेशोल्ड को कम करके मेरे लिए क्षतिपूर्ति करना संभव है?
sgk

+1 सहसंबद्ध परीक्षण और संबंधित कई परीक्षण समस्या पर ध्यान दें। नीचे दिए गए समायोजन विकल्पों के साथ मेरा विस्तृत उत्तर देखें, आपके (बहुत अच्छे) उदाहरण के आधार पर।
टॉमका

αα

मेरा मुख्य बिंदु पारिवारिक बुद्धिमान त्रुटि (एफडब्ल्यूईआर) दर या झूठी खोज दर (एफडीआर) दोनों को लक्षित करना है जो टाइप -1 त्रुटि को नियंत्रित करता है। टाइप -2 त्रुटि को नियंत्रित करना आमतौर पर बहुत बड़े नमूनों के कारण / बी परीक्षणों में एक समस्या से कम नहीं है।
टॉमका

p=0.05
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.