मैं एक साधारण ए / बी टेस्ट से निपटने के दौरान एक विशिष्ट परीक्षण दृष्टिकोण का चयन करके तर्क को समझने की कोशिश कर रहा हूं - (बाइनरी रिस्पॉन्स (परिवर्तित या नहीं) के साथ दो बदलाव / समूह। उदाहरण के रूप में मैं नीचे दिए गए डेटा का उपयोग करूंगा।
Version Visits Conversions
A 2069 188
B 1826 220
शीर्ष जवाब यहाँ बहुत अच्छा है और z, टी और ची वर्ग परीक्षण के लिए अंतर्निहित मान्यताओं से कुछ के बारे में बात करती है। लेकिन मुझे जो भ्रम हो रहा है वह यह है कि विभिन्न ऑनलाइन संसाधन अलग-अलग दृष्टिकोणों का हवाला देंगे, और आपको लगता है कि एक बुनियादी ए / बी परीक्षण के लिए मान्यताओं को बहुत अधिक होना चाहिए?
- उदाहरण के लिए, यह लेख z- स्कोर का उपयोग करता है :
- यह आलेख निम्न सूत्र का उपयोग करता है (जो मुझे यकीन नहीं है कि यह zscore गणना से अलग है?)
- यह पत्र टी परीक्षण का संदर्भ देता है (पृष्ठ 152):
तो इन विभिन्न दृष्टिकोणों के पक्ष में क्या तर्क दिया जा सकता है? किसी की प्राथमिकता क्यों होगी?
एक और उम्मीदवार में फेंकने के लिए, उपरोक्त तालिका को 2x2 आकस्मिक तालिका के रूप में फिर से लिखा जा सकता है, जहां फिशर का सटीक परीक्षण (पी 5) इस्तेमाल किया जा सकता है
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
लेकिन इस थ्रेड के अनुसार फिशर का सटीक परीक्षण केवल छोटे नमूना आकार (कट ऑफ क्या है?) के साथ किया जाना चाहिए।
और फिर वहाँ युग्मित टी और जेड परीक्षण, एफ परीक्षण (और लॉजिस्टिक प्रतिगमन है, लेकिन मैं अभी के लिए इसे छोड़ना चाहता हूं) .... मुझे लगता है कि मैं अलग-अलग परीक्षण दृष्टिकोणों में डूब रहा हूं, और मैं सिर्फ सक्षम होना चाहता हूं। इस सरल ए / बी परीक्षण मामले में विभिन्न तरीकों के लिए किसी प्रकार का तर्क दें।
उदाहरण डेटा का उपयोग करके मुझे निम्नलिखित पी-मान मिल रहे हैं
https://vwo.com/ab-split-test-significance-calculator/ 0.001 (z- स्कोर) का एक पी-मूल्य देता है
http://www.evanmiller.org/ab-testing/chi-squared.html (ची स्क्वायर टेस्ट का उपयोग करके) 0.00259 का पी-मान देता है
और आर
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
में 0.002785305 का पी-मूल्य देता है
मुझे लगता है कि सभी बहुत करीब हैं ...
वैसे भी - बस ऑनलाइन परीक्षण में उपयोग करने के लिए दृष्टिकोण पर कुछ स्वस्थ चर्चा की उम्मीद है जहां नमूना आकार आमतौर पर हजारों में होते हैं, और प्रतिक्रिया अनुपात अक्सर 10% या उससे कम होते हैं। मेरी आंत मुझे ची-स्क्वायर का उपयोग करने के लिए कह रही है, लेकिन मैं इसका जवाब देने में सक्षम होना चाहता हूं कि मैं इसे करने के तरीकों की दूसरी भीड़ पर क्यों चुन रहा हूं।