ए / बी परीक्षण के लिए नमूना आकार का सुरक्षित रूप से निर्धारण


22

मैं एक सॉफ्टवेयर इंजीनियर हूं, जो ए / बी टेस्टिंग टूल बनाना चाहता हूं । मेरे पास एक ठोस आँकड़े पृष्ठभूमि नहीं है, लेकिन पिछले कुछ दिनों में पढ़ने में काफी कमी आई है।

मैं यहाँ वर्णित कार्यप्रणाली का अनुसरण कर रहा हूं और नीचे दिए गए प्रासंगिक बिंदुओं को संक्षेप में बताऊंगा।

उपकरण डिजाइनरों और डोमेन विशेषज्ञों को दो या अधिक URL के बीच एक विशिष्ट URL पर प्राप्त ट्रैफ़िक को विभाजित करने के लिए वेबसाइट को कॉन्फ़िगर करने की अनुमति देगा। उदाहरण के लिए, http://example.com/hello1 पर आने वाले ट्रैफ़िक को http://example.com/hello1 और http://example.com/hello2 के बीच विभाजित किया जा सकता है । लक्ष्य URL के बीच ट्रैफ़िक समान रूप से विभाजित किया जाएगा और लक्ष्य URL में से प्रत्येक पर मार्केटिंग प्रक्रियाओं के प्रदर्शन की तुलना की जाएगी।

इस प्रयोग में, नमूना आकार Nआगंतुकों के अनुरूप होगा। परीक्षण "रूपांतरण" को मापेगा, यह वर्णन करता है कि जब कोई आगंतुक किसी विपणन प्रक्रिया में किसी विशिष्ट कार्रवाई के लिए कहता है। रूपांतरण प्रतिशत में व्यक्त किए जाते हैं और उच्च रूपांतरण दर वांछनीय है। यह परीक्षण को स्वतंत्र अनुपात की तुलना बनाता है। सुरक्षित परिणामों के साथ परीक्षण का उत्पादन करने के लिए उपकरण को आसानी से नियोजित करने में सक्षम होना चाहिए। उचित मूल्य का चयन करना Nमहत्वपूर्ण है।

लिंक किए गए लेख में, ऊपर, दो स्वतंत्र अनुपातों के एक शक्ति विश्लेषण को खोजने के लिए नियोजित किया गया है N। इस पद्धति के लिए आवश्यक है कि किसी को नियंत्रण की रूपांतरण दर पहले से पता हो और साथ ही लक्ष्य वांछित रूपांतरण में सुधार हो। यह 95% के महत्व स्तर और 80% की सांख्यिकीय शक्ति को भी निर्दिष्ट करता है।

प्रशन:

  1. क्या यह निर्धारण की विधि है N ध्वनि ? यदि हां, तो परीक्षण शुरू करने से पहले नियंत्रण की रूपांतरण दर निर्धारित करने का सबसे सुरक्षित तरीका क्या है?
  2. क्या निर्धारित करने के ध्वनि तरीके हैं N कि अग्रिम में नियंत्रण की रूपांतरण दरों को जानने की आवश्यकता नहीं है?
  3. क्या लिंक लेख की ध्वनि में कार्यप्रणाली है ? यदि नहीं, तो क्या कोई सुलभ और आसानी से पचने योग्य तरीके हैं जो आपको मुझसे जोड़ सकते हैं?

जवाबों:


12

इस तरह के परीक्षण करने के लिए सबसे आम तरीका द्विपदीय अनुपात आत्मविश्वास अंतराल के साथ है (देखें http://bit.ly/fa2K7B )

आप कभी भी दो रास्तों के "सही" रूपांतरण दर को नहीं जान पाएंगे, लेकिन यह आपको प्रभाव को कुछ कहने की क्षमता देगा "99% आत्मविश्वास के साथ, A, B की तुलना में परिवर्तित करने में अधिक प्रभावी है"।

उदाहरण के लिए: मान लें कि आपने 1000 ट्रायल डाउन पथ ए। इन 1000 परीक्षणों को चला दिया है, 121 सफल रूपांतरण (0.121 की रूपांतरण दर) थे और हम इस 0.121 परिणाम के आसपास 99% विश्वास अंतराल चाहेंगे। 99% विश्वास के अंतराल के लिए z- स्कोर 2.576 (आप सिर्फ एक तालिका में इस देखो) है, इसलिए सूत्र के तो 99% विश्वास के साथ हम कह सकते हैं कि0.094 पी0.148, जहां पी प्रक्रिया ए के "सही" रूपांतरण दर है

p^±2.576(0.121(10.121)1000)p^±0.027
0.094p^0.148p^

यदि हम प्रक्रिया बी के लिए समान अंतराल का निर्माण करते हैं, तो हम अंतराल की तुलना कर सकते हैं। यदि अंतराल ओवरलैप नहीं करते हैं, तो हम 98% विश्वास के साथ कह सकते हैं कि एक दूसरे से बेहतर है। (याद रखें, हम प्रत्येक अंतराल के बारे में केवल 99% आश्वस्त हैं, इसलिए तुलना के बारे में हमारा समग्र विश्वास 0.99 * 0.99 है)

NN

तुम्हारे लिऐ शुभकामना। (मैं प्रक्रिया बी के लिए निहित है, वैसे)।


2
साइट पर आपका स्वागत है, @ronny। चूंकि आप यहां नए हैं, आप हमारे FAQ को पढ़ना चाह सकते हैं । अन्य बातों के अलावा, यह साइट का समर्थन करती हैLATEXp^

p^0.094p^0.148sucessestrialsp^पी

यह उत्तर गलत है। विशेष रूप से: "यदि अंतराल ओवरलैप नहीं करता है, तो हम 98% विश्वास के साथ कह सकते हैं कि एक दूसरे से बेहतर है" गलत है। दो गैर-अतिव्यापी 99% आत्मविश्वास अंतरालों को देखते हुए, यह विश्वास कि अंतर LEAST 99% के बराबर है। यदि अंतराल समान आकार के हैं, तो अंतर 99.97% के स्तर पर महत्वपूर्ण है। आंकड़े.stackexchange.com/questions/18215 cscu.cornell.edu/news/statnews/Stnews73insert.pdf
Bscan

@Bscan क्या आपकी टिप्पणी अन्य मूल्यों के लिए है? उदाहरण के लिए, यह कहना सही है (आपकी प्रशंसा के अनुसार) कि साधनों का अंतर कम से कम 30% है यदि हमारे पास एक ही आकार के दो गैर-अतिव्यापी 30% विश्वास अंतराल हैं?
फेलिप अल्मीडा

1
@ फ़ेलिप, हां टिप्पणी सभी मूल्यों के लिए रखती है और गैर-अतिव्यापी 30% आत्मविश्वास अंतराल से तात्पर्य है कि 0 को छोड़कर अंतर कम से कम 30% है। हालांकि इसका मतलब यह नहीं है कि साधनों में 30% का अंतर है। सच्चा साधन बहुत समान हो सकता है; हम केवल यह साबित करने की कोशिश कर रहे हैं कि वे बिल्कुल समान नहीं हैं।
Bscan

8

IMHO, जहाँ तक जाता है, पोस्ट सही दिशा में जाती है। तथापि:

  • प्रस्तावित विधि स्पष्ट रूप से दो धारणाएं बनाती है: आधारभूत रूपांतरण दर और परिवर्तन की अपेक्षित मात्रा। नमूना आकार बहुत हद तक इस बात पर निर्भर करता है कि आप इन धारणाओं को कितने अच्छे से पूरा करते हैं। मेरा सुझाव है कि आप पी 1 और पी 2 के कई संयोजनों के लिए आवश्यक नमूना आकारों की गणना करें जो आपको लगता है कि यथार्थवादी हैं। यह आपको इस बात का अहसास दिलाएगा कि वास्तव में नमूना आकार गणना कितनी विश्वसनीय है।

    > power.prop.test (p1=0.1, p2 = 0.1*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 14750.79
                 p1 = 0.1
                 p2 = 0.11
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    
    > power.prop.test (p1=0.09, p2 = 0.09*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 16582.2
                 p1 = 0.09
                 p2 = 0.099
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    

    इसलिए यदि वास्तविक रूपांतरण दर 10% के बजाय 9% है, तो आपको नए फॉर्म के 10% -more-baseline रूपांतरण दर का पता लगाने के लिए प्रत्येक परिदृश्य के लिए अन्य 2000 मामलों की आवश्यकता है।

परीक्षण किए जाने के बाद, आप अपनी वास्तविक टिप्पणियों के आधार पर अनुपात के लिए विश्वास अंतराल की गणना कर सकते हैं।

  • n
    nsig.level

नमस्ते, इन तरीकों की आलोचना के लिए समय निकालने के लिए बहुत बहुत धन्यवाद। गणना में (1 - α) calculation, 10%, "α" क्या दर्शाता है? चूंकि परीक्षण डेटा को कैप्चर करने में लंबा समय लगता है, आप कैसे इस प्रस्ताव का निर्माण करें कि यदि कोई तीन अनुपातों का परीक्षण करना चाहता है? क्या ऐसा करने का एक सुरक्षित तरीका है जिसमें कई परीक्षण चलाना शामिल नहीं है? तीन विकल्पों के साथ, तीन परीक्षण बहुत बोझ नहीं हैं, लेकिन चार विकल्पों के साथ संयोजन की संख्या छह तक बढ़ जाती है।
jkndrkn

1
@jkndrkn: α मूल रूप, उर्फ़ α- त्रुटि या टाइप I त्रुटि से दूर होने की संभावना है। अद्यतन उत्तर देखें।
केलीलाइट्स

1
@jkndrkn: कई परीक्षण: मैंने फ्लेस et.al पर एक नज़र डाली होगी । इस तरह के परीक्षणों के लिए प्रक्रियाओं के बारे में दरों और अनुपात के लिए सांख्यिकीय तरीके । हालांकि, ऐसे कई परीक्षणों के लिए मुख्य बिंदु हमेशा विशेषज्ञ ज्ञान का उपयोग करना है ताकि परीक्षण को परिभाषित करने से पहले विकल्प की संख्या में कटौती की जा सके क्योंकि आवश्यक नमूना आकार विकल्प की संख्या (जैसा कि आप पहले से ही महसूस किया गया है) के साथ विस्फोट करते हैं।
केलीलाइट्स

-1

ओवरलैपिंग अंतराल की गणना के बजाय आप जेड-स्कोर की गणना करते हैं। यह एल्गोरिदम को लागू करना आसान है, और आपको मदद करने के लिए सांख्यिकीय पुस्तकालय मिलेंगे।

नज़र डालें: https://onlinecourses.science.psu.edu/stat200/node/53

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.