मैं एक सॉफ्टवेयर डेवलपर हूं जो ए / बी टेस्टिंग सिस्टम पर काम कर रहा हूं। मेरे पास एक ठोस आँकड़े पृष्ठभूमि नहीं है, लेकिन पिछले कुछ महीनों में ज्ञान उठा रहा है।
एक विशिष्ट परीक्षण परिदृश्य में एक वेबसाइट पर दो URL की तुलना करना शामिल है। एक आगंतुक का दौरा LANDING_URLऔर उसके बाद बेतरतीब ढंग से या तो को भेजा जाता है URL_CONTROLया URL_EXPERIMENTAL। एक आगंतुक एक नमूना का गठन करता है, और एक जीत की स्थिति तब प्राप्त होती है जब आगंतुक उस साइट पर कुछ वांछित कार्रवाई करता है। यह रूपांतरण का गठन करता है और रूपांतरण दर रूपांतरण दर (आमतौर पर प्रतिशत के रूप में व्यक्त) है। किसी दिए गए URL के लिए एक विशिष्ट रूपांतरण दर 0.01% से 0.08% के दायरे में कुछ है। हम यह निर्धारित करने के लिए परीक्षण चलाते हैं कि पुराने URL के मुकाबले नए URL की तुलना कैसे की जाए। तो URL_EXPERIMENTALबेहतर प्रदर्शन करना दिखाया गया है URL_CONTROL, हम की जगह URL_CONTROLके साथURL_EXPERIMENTAL ।
हमने सरल परिकल्पना परीक्षण तकनीकों का उपयोग करके एक प्रणाली विकसित की है। मैंने एक और क्रॉसविलेक्टेड प्रश्न के उत्तर का उपयोग यहां किया इस प्रणाली को विकसित करने।
एक परीक्षण निम्नानुसार सेट किया गया है:
- रूपांतरण दर अनुमान
CRE_CONTROLसेURL_CONTROLऐतिहासिक डेटा का उपयोग कर गणना की जाती है। - वांछित लक्ष्य रूपांतरण दर
CRE_EXPERIMENTALकीURL_EXPERIMENTALसेट है। - आमतौर पर 0.95 का महत्व स्तर होता है।
- 0.8 की शक्ति का आमतौर पर उपयोग किया जाता है।
एक साथ, इन सभी मूल्यों का उपयोग वांछित नमूना आकार की गणना करने के लिए किया जाता है। मैं आर फ़ंक्शन का उपयोग कर रहा हूंpower.prop.test इस नमूने का आकार प्राप्त करने के लिए ।
सभी नमूनों को एकत्र किए जाने तक एक परीक्षण चलेगा। इस बिंदु पर, के लिए आत्मविश्वास अंतराल CR_CONTROLऔर CR_EXPERIMENTALगणना की जाती है। यदि वे ओवरलैप नहीं करते हैं, तो एक विजेता को 0.95 के महत्व स्तर और 0.8 की शक्ति के साथ घोषित किया जा सकता है।
हमारे परीक्षणों के उपयोगकर्ताओं को दो प्रमुख चिंताएं हैं, हालांकि:
1. यदि, परीक्षण के दौरान किसी बिंदु पर, एक स्पष्ट विजेता दिखाने के लिए पर्याप्त नमूने एकत्र किए जाते हैं, तो क्या परीक्षण को रोका नहीं जा सकता है?
2. यदि परीक्षण के अंत में कोई विजेता घोषित नहीं किया जाता है, तो क्या हम यह देखने के लिए परीक्षण चला सकते हैं कि क्या हम विजेता को खोजने के लिए पर्याप्त नमूने एकत्र कर सकते हैं?
यह ध्यान दिया जाना चाहिए कि वहाँ कई वाणिज्यिक उपकरण मौजूद हैं जो अपने उपयोगकर्ताओं को ठीक वही करने की अनुमति देते हैं जो हमारे अपने उपयोगकर्ता चाहते हैं। मैंने पढ़ा है कि उपर्युक्त के साथ बहुत सी गलतियाँ हैं, लेकिन मैं एक नियम को रोकने के विचार में आया हूं और अपने स्वयं के सिस्टम में इस तरह के नियम का उपयोग करने की संभावना तलाशना चाहता हूं।
यहाँ दो दृष्टिकोण हैं जिन पर हम विचार करना चाहेंगे:
1. उपयोग करना power.prop.test , वर्तमान मापा रूपांतरण दरों की तुलना नमूनों की वर्तमान संख्या से करें और देखें कि विजेता घोषित करने के लिए पर्याप्त नमूने एकत्र किए गए हैं या नहीं।
उदाहरण: हमारे सिस्टम में निम्नलिखित व्यवहार मौजूद है या नहीं यह देखने के लिए एक परीक्षण स्थापित किया गया है:
CRE_CONTROL: 0.1CRE_EXPERIMENTAL: 0.1 * 1.3- इन मापदंडों के साथ, नमूना आकार
N1774 है।
हालांकि, परीक्षण के रूप में और 325 नमूनों तक पहुँचता है, CRM_CONTROL(नियंत्रण के लिए मापा रूपांतरण दर) 0.08 है और CRM_EXPERIMENTAL0.15 है। power.prop.testइन रूपांतरण दरों पर चलाया जाता है और N325 पाया जाता है। वास्तव CRM_EXPERIMENTALमें विजेता घोषित करने के लिए आवश्यक नमूनों की संख्या ! इस बिंदु पर यह हमारी आशा है कि परीक्षण समाप्त हो सकता है। इसी तरह, यदि परीक्षण 1774 नमूनों तक पहुंचता है, लेकिन कोई विजेता नहीं पाया जाता है, लेकिन फिर यह 2122 नमूनों तक पहुंच जाता है, जो कि CRM_CONTROL0.1 और यह दिखाने के लिए पर्याप्त हैCRM_EXPERIMENTAL 0.128 है, एक परिणाम है जहां एक विजेता घोषित किया जा सकता है।
एक में संबंधित सवाल उन सलाह दी है कि इस तरह के एक परीक्षण की वजह से जल्दी उत्साहजनक कम नमूने होने बंद हो जाता है और यह भी की चपेट में किया जा रहा करने के लिए कम विश्वसनीय है आकलन पूर्वाग्रह और टाइप I और टाइप II त्रुटियों की एक बढ़ी संख्या के । क्या इस रोक नियम को काम करने का कोई तरीका है? यह हमारा पसंदीदा तरीका है क्योंकि इसका मतलब है हमारे लिए कम प्रोग्रामिंग समय। शायद यह रोक नियम कुछ प्रकार के संख्यात्मक स्कोर या स्कोर की पेशकश करके काम कर सकता है जो परीक्षण की विश्वसनीयता को मापता है इसे जल्दी रोका जाना चाहिए?
2. अनुक्रमिक विश्लेषण या SPRT का उपयोग करना ।
परीक्षण के इन तरीकों को उस स्थिति के लिए बिल्कुल तैयार किया गया है जो हम स्वयं में पाते हैं: हमारे उपयोगकर्ता कैसे परीक्षण शुरू कर सकते हैं और इसे इस तरह से समाप्त कर सकते हैं कि वे परीक्षण में अतिरिक्त समय बर्बाद नहीं करते हैं? या तो एक परीक्षण बहुत लंबा चल रहा है, या विभिन्न मापदंडों के साथ एक परीक्षण शुरू करने के लिए।
उपरोक्त दो विधियों में से, मैं एसपीआरटी का पक्ष लेता हूं क्योंकि गणित मेरे लिए पकड़ना थोड़ा आसान है और क्योंकि ऐसा लगता है कि यह प्रोग्राम करना आसान हो सकता है। हालाँकि, मुझे समझ नहीं आ रहा है कि इस संदर्भ में संभावना फ़ंक्शन का उपयोग कैसे करें । यदि कोई संभावना-अनुपात की गणना करने के लिए एक उदाहरण का निर्माण कर सकता है, तो संभावना-अनुपात का संचयी योग, और उदाहरण के माध्यम से एक स्थिति को दिखाता है जब कोई निगरानी जारी रखेगा, जब कोई अशक्त परिकल्पना और वैकल्पिक परिकल्पना को स्वीकार करेगा। अगर एसपीआरटी जाने का सही तरीका है तो हमें यह निर्धारित करने में मदद करेगा।