मैं एक सॉफ्टवेयर डेवलपर हूं जो ए / बी टेस्टिंग सिस्टम पर काम कर रहा हूं। मेरे पास एक ठोस आँकड़े पृष्ठभूमि नहीं है, लेकिन पिछले कुछ महीनों में ज्ञान उठा रहा है।
एक विशिष्ट परीक्षण परिदृश्य में एक वेबसाइट पर दो URL की तुलना करना शामिल है। एक आगंतुक का दौरा LANDING_URL
और उसके बाद बेतरतीब ढंग से या तो को भेजा जाता है URL_CONTROL
या URL_EXPERIMENTAL
। एक आगंतुक एक नमूना का गठन करता है, और एक जीत की स्थिति तब प्राप्त होती है जब आगंतुक उस साइट पर कुछ वांछित कार्रवाई करता है। यह रूपांतरण का गठन करता है और रूपांतरण दर रूपांतरण दर (आमतौर पर प्रतिशत के रूप में व्यक्त) है। किसी दिए गए URL के लिए एक विशिष्ट रूपांतरण दर 0.01% से 0.08% के दायरे में कुछ है। हम यह निर्धारित करने के लिए परीक्षण चलाते हैं कि पुराने URL के मुकाबले नए URL की तुलना कैसे की जाए। तो URL_EXPERIMENTAL
बेहतर प्रदर्शन करना दिखाया गया है URL_CONTROL
, हम की जगह URL_CONTROL
के साथURL_EXPERIMENTAL
।
हमने सरल परिकल्पना परीक्षण तकनीकों का उपयोग करके एक प्रणाली विकसित की है। मैंने एक और क्रॉसविलेक्टेड प्रश्न के उत्तर का उपयोग यहां किया इस प्रणाली को विकसित करने।
एक परीक्षण निम्नानुसार सेट किया गया है:
- रूपांतरण दर अनुमान
CRE_CONTROL
सेURL_CONTROL
ऐतिहासिक डेटा का उपयोग कर गणना की जाती है। - वांछित लक्ष्य रूपांतरण दर
CRE_EXPERIMENTAL
कीURL_EXPERIMENTAL
सेट है। - आमतौर पर 0.95 का महत्व स्तर होता है।
- 0.8 की शक्ति का आमतौर पर उपयोग किया जाता है।
एक साथ, इन सभी मूल्यों का उपयोग वांछित नमूना आकार की गणना करने के लिए किया जाता है। मैं आर फ़ंक्शन का उपयोग कर रहा हूंpower.prop.test
इस नमूने का आकार प्राप्त करने के लिए ।
सभी नमूनों को एकत्र किए जाने तक एक परीक्षण चलेगा। इस बिंदु पर, के लिए आत्मविश्वास अंतराल CR_CONTROL
और CR_EXPERIMENTAL
गणना की जाती है। यदि वे ओवरलैप नहीं करते हैं, तो एक विजेता को 0.95 के महत्व स्तर और 0.8 की शक्ति के साथ घोषित किया जा सकता है।
हमारे परीक्षणों के उपयोगकर्ताओं को दो प्रमुख चिंताएं हैं, हालांकि:
1. यदि, परीक्षण के दौरान किसी बिंदु पर, एक स्पष्ट विजेता दिखाने के लिए पर्याप्त नमूने एकत्र किए जाते हैं, तो क्या परीक्षण को रोका नहीं जा सकता है?
2. यदि परीक्षण के अंत में कोई विजेता घोषित नहीं किया जाता है, तो क्या हम यह देखने के लिए परीक्षण चला सकते हैं कि क्या हम विजेता को खोजने के लिए पर्याप्त नमूने एकत्र कर सकते हैं?
यह ध्यान दिया जाना चाहिए कि वहाँ कई वाणिज्यिक उपकरण मौजूद हैं जो अपने उपयोगकर्ताओं को ठीक वही करने की अनुमति देते हैं जो हमारे अपने उपयोगकर्ता चाहते हैं। मैंने पढ़ा है कि उपर्युक्त के साथ बहुत सी गलतियाँ हैं, लेकिन मैं एक नियम को रोकने के विचार में आया हूं और अपने स्वयं के सिस्टम में इस तरह के नियम का उपयोग करने की संभावना तलाशना चाहता हूं।
यहाँ दो दृष्टिकोण हैं जिन पर हम विचार करना चाहेंगे:
1. उपयोग करना power.prop.test
, वर्तमान मापा रूपांतरण दरों की तुलना नमूनों की वर्तमान संख्या से करें और देखें कि विजेता घोषित करने के लिए पर्याप्त नमूने एकत्र किए गए हैं या नहीं।
उदाहरण: हमारे सिस्टम में निम्नलिखित व्यवहार मौजूद है या नहीं यह देखने के लिए एक परीक्षण स्थापित किया गया है:
CRE_CONTROL
: 0.1CRE_EXPERIMENTAL
: 0.1 * 1.3- इन मापदंडों के साथ, नमूना आकार
N
1774 है।
हालांकि, परीक्षण के रूप में और 325 नमूनों तक पहुँचता है, CRM_CONTROL
(नियंत्रण के लिए मापा रूपांतरण दर) 0.08 है और CRM_EXPERIMENTAL
0.15 है। power.prop.test
इन रूपांतरण दरों पर चलाया जाता है और N
325 पाया जाता है। वास्तव CRM_EXPERIMENTAL
में विजेता घोषित करने के लिए आवश्यक नमूनों की संख्या ! इस बिंदु पर यह हमारी आशा है कि परीक्षण समाप्त हो सकता है। इसी तरह, यदि परीक्षण 1774 नमूनों तक पहुंचता है, लेकिन कोई विजेता नहीं पाया जाता है, लेकिन फिर यह 2122 नमूनों तक पहुंच जाता है, जो कि CRM_CONTROL
0.1 और यह दिखाने के लिए पर्याप्त हैCRM_EXPERIMENTAL
0.128 है, एक परिणाम है जहां एक विजेता घोषित किया जा सकता है।
एक में संबंधित सवाल उन सलाह दी है कि इस तरह के एक परीक्षण की वजह से जल्दी उत्साहजनक कम नमूने होने बंद हो जाता है और यह भी की चपेट में किया जा रहा करने के लिए कम विश्वसनीय है आकलन पूर्वाग्रह और टाइप I और टाइप II त्रुटियों की एक बढ़ी संख्या के । क्या इस रोक नियम को काम करने का कोई तरीका है? यह हमारा पसंदीदा तरीका है क्योंकि इसका मतलब है हमारे लिए कम प्रोग्रामिंग समय। शायद यह रोक नियम कुछ प्रकार के संख्यात्मक स्कोर या स्कोर की पेशकश करके काम कर सकता है जो परीक्षण की विश्वसनीयता को मापता है इसे जल्दी रोका जाना चाहिए?
2. अनुक्रमिक विश्लेषण या SPRT का उपयोग करना ।
परीक्षण के इन तरीकों को उस स्थिति के लिए बिल्कुल तैयार किया गया है जो हम स्वयं में पाते हैं: हमारे उपयोगकर्ता कैसे परीक्षण शुरू कर सकते हैं और इसे इस तरह से समाप्त कर सकते हैं कि वे परीक्षण में अतिरिक्त समय बर्बाद नहीं करते हैं? या तो एक परीक्षण बहुत लंबा चल रहा है, या विभिन्न मापदंडों के साथ एक परीक्षण शुरू करने के लिए।
उपरोक्त दो विधियों में से, मैं एसपीआरटी का पक्ष लेता हूं क्योंकि गणित मेरे लिए पकड़ना थोड़ा आसान है और क्योंकि ऐसा लगता है कि यह प्रोग्राम करना आसान हो सकता है। हालाँकि, मुझे समझ नहीं आ रहा है कि इस संदर्भ में संभावना फ़ंक्शन का उपयोग कैसे करें । यदि कोई संभावना-अनुपात की गणना करने के लिए एक उदाहरण का निर्माण कर सकता है, तो संभावना-अनुपात का संचयी योग, और उदाहरण के माध्यम से एक स्थिति को दिखाता है जब कोई निगरानी जारी रखेगा, जब कोई अशक्त परिकल्पना और वैकल्पिक परिकल्पना को स्वीकार करेगा। अगर एसपीआरटी जाने का सही तरीका है तो हमें यह निर्धारित करने में मदद करेगा।