प्रयोग शुरू करने से पहले नमूना आकार का निर्धारण करना या प्रयोग को अनिश्चित काल तक चलाना?


12

मैंने वर्षों पहले के आँकड़ों का अध्ययन किया है और यह सब भूल गया हूँ इसलिए ये कुछ विशिष्ट की तुलना में सामान्य वैचारिक प्रश्नों की तरह लग सकते हैं लेकिन यहाँ मेरा मुद्दा है।

मैं एक ई-कॉमर्स वेबसाइट के लिए UX डिजाइनर के रूप में काम करता हूं। हमारे पास एक ए / बी परीक्षण ढांचा है जो वर्षों पहले बनाया गया था जिस पर मुझे संदेह है।

जिस मीट्रिक पर हम अपने सभी निर्णय लेते हैं, उसे रूपांतरण के रूप में जाना जाता है, और यह उन उपयोगकर्ताओं के प्रतिशत पर आधारित है जो साइट पर जाते हैं, कुछ खरीद कर समाप्त करते हैं।

इसलिए हम ग्रीन से ब्लू तक खरीदें बटन के रंग को बदलना चाहते हैं।

नियंत्रण वह है जो हमारे पास पहले से है, ग्रीन बटन जहां हमें पता है कि हमारी औसत रूपांतरण दर क्या है। प्रयोग ग्रीन बटन को ब्लू बटन से बदल रहा है।

हम सहमत हैं कि 95% महत्व आत्मविश्वास का स्तर है जिससे हम खुश हैं और हम प्रयोग को चालू करते हैं, इसे छोड़ देते हैं।

जब उपयोगकर्ता साइट पर जाते हैं, तो पर्दे के पीछे 50/50 मौका होता है, उन्हें नियंत्रण संस्करण (हरा बटन) बनाम प्रयोग संस्करण (नीला बटन) में भेजा जाएगा।

, दिनों के बाद प्रयोग को देखने के बाद, मुझे ३००० के नमूने के आकार के साथ प्रयोग के रूप में रूपांतरण में १०.२% वृद्धि हुई है (१५०० पर नियंत्रण जा रहा है, प्रयोग के लिए १५००) और ९९.२% का एक सांख्यिकीय महत्व है। बहुत अच्छा मुझे लगता है।

प्रयोग जारी है, नमूना आकार बढ़ता है और फिर मुझे 98.1% के महत्व के साथ रूपांतरण में + 9% की वृद्धि दिखाई देती है। ठीक है, प्रयोग को अधिक समय तक चालू रखें और अब प्रयोग केवल ९ ५% के सांख्यिकीय महत्व के साथ रूपांतरण में सिर्फ ५% की वृद्धि दिखाता है, रूपरेखा के साथ मुझे ९ ५% तक पहुंचने से पहले मुझे ४६०० नमूनों की आवश्यकता है?

किस बिंदु पर प्रयोग निर्णायक है?

यदि मैं एक नैदानिक ​​परीक्षण प्रक्रिया के बारे में सोचता हूं जहां आप पहले से नमूना आकार पर सहमत हैं और प्रयोग पूरा करने पर आप जो भी मीट्रिक का 99% महत्व के 10% सुधार देखते हैं, तो यह निर्णय लिया जाता है कि वह दवा तब बाजार में जाती है। लेकिन तब अगर उन्होंने 4000 लोगों पर प्रयोग किया और वे जो कुछ भी मीट्रिक का 5% सुधार केवल 92% महत्वपूर्ण देखते हैं, तो उस दवा को बाजार में जाने की अनुमति नहीं दी जाएगी।

क्या हमें पहले से एक नमूना आकार पर सहमत होना चाहिए और एक बार जब नमूना आकार तक पहुँच जाता है और बंद हो जाता है तो परिणाम से खुश होना चाहिए यदि प्रयोग बंद करने के बिंदु पर महत्व 99% था?


1
आप रैंकिंग और चयन के आधार पर एक अलग दृष्टिकोण का उपयोग करने पर विचार कर सकते हैं ।
पीजे

मुझे यह फिल्म ( youtube.com/watch?v=fl9V0U2SGeI ) मिली । मुझे लगता है जैसे यह आप सवाल का जवाब देता है।
नाथन

इसके अलावा अध्ययन की अंतर्निहित बात पर ध्यान देने योग्य है कि यह अत्यधिक प्रतिवर्तनीय है, तेजी से आगे बढ़ रहा है और इसे लगातार दोहराने के परीक्षण की आवश्यकता है। नई साइटें, मानक और शैलियाँ दिखाई देते ही लेआउट, रंग, बटन आदि तेजी से चलते हैं। दहनशील मुद्दों का एक उच्च स्तर (वह बटन पृष्ठभूमि रंग आदि के लिए थोड़े से बदलाव के साथ विभिन्न परिणाम लौटा सकता है)। नतीजतन, महत्व के स्तरों की परवाह किए बिना आप बहुत मजबूत दिखते हुए भी परिणामों में आत्मविश्वास का एक बहुत 'सच्चा' स्तर (और निश्चित रूप से लंबे समय तक नहीं) नहीं रख सकते।
फिलिप

जवाबों:


11

मुझे लगता है कि आप जिस अवधारणा को खोज रहे हैं वह अनुक्रमिक विश्लेषण है। इस साइट पर कई ऐसे शब्द हैं, जो आपको उपयोगी लगने वाले शब्द के साथ टैग किए गए हैं, शायद अनुकूली अनुक्रमिक विश्लेषण के लिए पी-मान को समायोजित करना (ची स्क्वायर टेस्ट के लिए)? शुरू करने के लिए एक जगह होगी। आप यहाँ विकिपीडिया लेख से भी सलाह ले सकते हैं । एक और उपयोगी खोज शब्द अल्फ़ा खर्च है जो इस तथ्य से आता है कि जैसा कि आप प्रत्येक दोहराए गए रूप को लेते हैं, आपको अपने अल्फ़ाज़ (महत्व स्तर) में से कुछ का उपयोग करना चाहिए। यदि आप कई तुलनाओं को ध्यान में रखते हुए अपने डेटा पर झांकते रहते हैं, तो आप उस समस्या की तरह चलते हैं, जिसे आप अपने प्रश्न में रेखांकित करते हैं।


धन्यवाद, यह कुछ अच्छी पढ़ने की सिफारिशें हैं। मुझे यह भी नहीं पता था कि अन्यथा क्या खोजा है। इसका सेवन करेंगे।
टेक 75

5

किस बिंदु पर प्रयोग निर्णायक है?

मुझे लगता है कि यह वह जगह है जहां सोच में त्रुटि है। ऐसा कोई बिंदु नहीं है जिस पर प्रयोग "निर्णायक" हो सकता है यदि आप इसका अर्थ "कटौती संबंधी सिद्धता" से लेते हैं। जब आप एक प्रयोग कर रहे होते हैं जिसमें एक सांख्यिकीय परीक्षण शामिल होता है, तो आपको इस बात के बारे में प्रतिबद्धता बनाने की आवश्यकता होती है कि आप किन सबूतों को पर्याप्त मानते हैं।

सांख्यिकीय-ध्वनि प्रयोगात्मक प्रक्रियाएं आपको झूठी सकारात्मक और झूठी नकारात्मक की ज्ञात दरों के साथ परिणाम देती हैं। यदि आपने ऐसी प्रक्रिया को चुना है जो 0.05 का उपयोग महत्व के लिए सीमा के रूप में करती है, तो आप कह रहे हैं कि आप यह स्वीकार करने को तैयार हैं कि 5% मामलों में जहां वास्तव में कोई अंतर नहीं है, आपका परीक्षण आपको बताएगा कि अंतर है।

यदि आप अपने द्वारा बताए गए तरीकों से प्रक्रिया से विचलित हो जाते हैं (आगे रुकने का समय नहीं चुनते हुए, बस परीक्षण चला रहे हैं, जब तक कि आपके गणना किए गए पी-वैल्यू 0.05 से कम नहीं हो जाते हैं, या जब तक आपको सकारात्मक परिणाम नहीं मिल जाता, तब तक पूरे प्रयोग को कई बार चलाएं। , आदि), आप इसे बना रहे हैं अधिक संभावना कि आपका परीक्षण आपको बताएगा कि एक अंतर मौजूद है जब वास्तव में कोई अंतर नहीं है। आप इसे अधिक संभावना बना रहे हैं कि आप सोच में फस जाएंगे कि आपका परिवर्तन प्रभावी रहा है। अपने आप को धोखा मत देना।

इस पत्र को पढ़ें: डेटा संग्रह और विश्लेषण में गलत-सकारात्मक मनोविज्ञान अघोषित लचीलापन और महत्वपूर्ण के रूप में कुछ भी पेश करने की अनुमति देता है

यह कई तरीकों पर प्रकाश डालता है जिन्हें आप अनुचित तरीके से एक परीक्षण प्रक्रिया के साथ हस्तक्षेप कर सकते हैं जो आपके लिए मूर्ख बनने की अधिक संभावना रखते हैं, जिसमें आपके द्वारा वर्णित सटीक परिदृश्य (किसी प्रयोग को रोकने के लिए नहीं जानते हुए) सहित।

अन्य उत्तर आपको इन समस्याओं (अनुक्रमिक विश्लेषण, कई तुलनाओं के लिए बोनफेरोनी सुधार) के खिलाफ कम करने के लिए कुछ समाधान देते हैं। लेकिन वे समाधान, झूठी-सकारात्मक दर को नियंत्रित करने में सक्षम होते हैं, आमतौर पर प्रयोग की शक्ति को कम करते हैं, जिससे यह मौजूद होने पर अंतर का पता लगाने की संभावना कम हो जाती है।


एक और त्रुटि है जो आप कर रहे हैं। आप "मीट्रिक के 99% महत्व के लिए 10% सुधार" के बारे में बात करते हैं। महत्व परीक्षण केवल आपको बता सकते हैं कि क्या आपके नमूने में मनाया गया अंतर वास्तविक अंतर्निहित अंतर या केवल यादृच्छिक शोर के कारण हो सकता है; वे आपको अंतर के बारे में विश्वास अंतराल नहीं देते हैं कि अंतर की सही मात्रा क्या है।


3

मुझे लगता है कि आप यहां गलत सवाल पूछ रहे हैं। आप जो सवाल पूछ रहे हैं, वह सांख्यिकीय परीक्षणों के बारे में है; मुझे लगता है कि सही सवाल यह है कि "समय के साथ प्रभाव क्यों बदल रहा है?"

यदि आप रूपांतरण के लिए 0/1 चर माप रहे हैं (क्या उन्होंने बिल्कुल खरीदा है?) तो जो लोग प्रारंभिक सत्र में नहीं खरीदे थे वे वापस आ सकते हैं और बाद में खरीद सकते हैं। इसका अर्थ है कि समय के साथ रूपांतरण दर बढ़ेगी और बाद की यात्राओं के विपरीत उनकी पहली यात्रा में ग्राहक खरीद के किसी भी प्रभाव को खो दिया जाएगा।

दूसरे शब्दों में, पहले जो आप माप रहे हैं, उसे सही करें , फिर चिंता करें कि आप कैसे माप रहे हैं।


3

यही कारण है कि परीक्षण से पहले एक स्पष्ट मानदंड को परिभाषित करने की आवश्यकता है। जैसा कि @mdewey इंगित करता है कि समय-समय पर परीक्षण के मूल्यांकन के लिए स्थापित तरीके हैं, लेकिन इन सभी को निर्णय पर किसी भी प्रकार की धोखाधड़ी को रोकने के लिए एक स्पष्ट रोक मानदंड की आवश्यकता होती है। दो महत्वपूर्ण मुद्दे यह हैं कि आपको कई तुलनाओं के लिए सही करने की आवश्यकता है और यह कि प्रत्येक विश्लेषण स्वतंत्र नहीं है, लेकिन इसका परिणाम आपके पिछले विश्लेषणों के परिणामों से काफी प्रभावित होता है।

एक विकल्प के रूप में व्यावसायिक रूप से प्रासंगिक तर्कों के आधार पर एक सेट नमूना आकार को परिभाषित करना सबसे अच्छा अभ्यास हो सकता है।

पहले कंपनी को इस बात से सहमत होना चाहिए कि रूपांतरण दर में व्यावसायिक रूप से प्रासंगिक परिवर्तन क्या है (यानी स्थायी रूप से तैनात किए जाने वाले परिवर्तन के लिए व्यावसायिक मामला बनाने के लिए वारंट के अंतर की क्या आवश्यकता है)। इस पर सहमति के बिना कोई समझदार बेंचमार्क नहीं है।

एक बार जब न्यूनतम व्यावसायिक रूप से प्रासंगिक प्रभाव का आकार निर्धारित किया जाता है (ध्यान दें कि यह केस के आधार पर किसी मामले में बदल सकता है, जिसके आधार पर परीक्षण किया जा रहा कदम कितना महत्वपूर्ण है) तो आप जोखिम के स्तर से सहमत होते हैं जो कंपनी को एक वास्तविक प्रभाव याद करने के लिए तैयार है बीटा) और एक गलत प्रभाव (अल्फा) को स्वीकार करने के लिए।

एक बार जब आपके पास ये नंबर होते हैं, तो उन्हें नमूना आकार कैलकुलेटर और वॉयला में प्लग कर दें, निर्णय लेने के लिए आपके पास आपका नमूना आकार होगा।


संपादित करें

छोटे नमूने के आकारों का उपयोग करना और उम्मीद करना कि वे काफी बड़ा प्रभाव दिखाएंगे, एक झूठी अर्थव्यवस्था है (चूंकि आपका उद्देश्य अकादमिक प्रकाशन के लिए विवादास्पद परिकल्पना पैदा करने के बजाय भरोसेमंद परिणाम है)। निष्पक्ष नमूने की मानें, तो कम नमूने के आकारों में बेतरतीब ढंग से चयन करने वाले नमूनों की संभावना जो विपरीत छोरों की ओर होती है, उच्च नमूना आकारों की तुलना में अधिक होती है। यह एक उच्च परिकल्पना को अस्वीकार करने की उच्च संभावना की ओर जाता है जब वास्तव में कोई अंतर नहीं होता है। तो इसका मतलब उन बदलावों से गुजरना होगा, जो वास्तव में वास्तविक प्रभाव नहीं डाल रहे हैं या थोड़ा नकारात्मक प्रभाव डाल रहे हैं। यह समझाने का एक अलग तरीका है कि @Science क्या बात कर रहा है जब वे राज्य करते हैं

"आप यह अधिक संभावना बना रहे हैं कि आपका परीक्षण आपको बताएगा कि एक अंतर मौजूद है जब वास्तव में कोई अंतर नहीं है"

अपने सांख्यिकीय विश्लेषण को पूर्व-निर्दिष्ट करने का बिंदु (चाहे मैं एक निश्चित नमूना आकार का वर्णन करता हूं या एक बहु मूल्यांकन रणनीति है) यह है कि आप उचित प्रकार I और II दोनों त्रुटियों की मांगों को संतुलित करते हैं। आपकी वर्तमान रणनीति टाइप I त्रुटियों पर ध्यान केंद्रित करने और पूरी तरह से II को अनदेखा करने के लिए प्रकट होती है।

जैसा कि कई अन्य उत्तरदाताओं ने कहा है कि परिणाम कभी भी निर्णायक नहीं होते हैं, लेकिन यदि आपने I और II दोनों प्रकार की त्रुटियों और उनके व्यवसाय पर उनके प्रभाव पर विचार किया है, तो आपको सबसे अधिक विश्वास होगा कि आप परिणामों के आधार पर परिवर्तनों को लागू करने के लिए आशा कर सकते हैं। अंत में निर्णय लेना आपके जोखिम के स्तर के साथ सहज होने के बारे में है और कभी भी अपने 'तथ्यों' को अपरिवर्तनीय नहीं मानते हैं।

मैं आपके अध्ययन डिजाइन के अन्य पहलुओं से जुड़ा हुआ हूं जो आपके द्वारा देखे जाने वाले परिणामों को प्रभावित कर सकता है। वे कुछ सूक्ष्म कारकों का खुलासा कर सकते हैं जो आप नहीं चाहते हैं।

क्या सभी नए विज़िटर, सभी लौटने वाले विज़िटर के नमूने के लिए लोगों का चयन किया गया है या वह उदासीन है? स्थापित ग्राहकों में कुछ उपन्यास के लिए जाने की प्रवृत्ति बढ़ सकती है (इसलिए एक विशिष्ट रंग बदलने के लिए पक्षपाती), लेकिन नए ग्राहकों के लिए सब कुछ नया है।

क्या वास्तविक लोग अध्ययन के समय-सीमा के भीतर पुनरावृत्ति पर क्लिक कर रहे हैं?

यदि लोग अध्ययन के समय-सीमा के दौरान कई बार आते हैं तो क्या उन्हें एक ही संस्करण के साथ प्रस्तुत किया जाता है या यह बेतरतीब ढंग से मक्खी पर आवंटित किया जाता है?

यदि आवर्ती आगंतुक को शामिल किया जाता है, तो जोखिम की थकान का खतरा होता है (यह अब विचलित करने वाला नहीं है क्योंकि यह अब नया नहीं है)


इसके लिए धन्यवाद। आप पहले से रूपांतरण में व्यावसायिक रूप से प्रासंगिक परिवर्तन पर सहमत होने के बारे में एक महान बिंदु बनाते हैं। लेकिन ई-कॉमर्स की तरह, रूपांतरण में छोटे परिवर्तन बिक्री को प्रभावित कर सकते हैं, यह काफी कम मूल्य होगा।
टेक 75

छोटा होने के लिए आवश्यक न्यूनतम अंतर कोई समस्या नहीं है, यह सुनिश्चित करेगा कि आप उचित रूप से शक्ति प्राप्त करें।
रेनेबेट

0

आम अभ्यास आमतौर पर तय करता है कि आप पहले नमूना आकार पर निर्णय लें (अपने परिकल्पना परीक्षण की सांख्यिकीय शक्ति को नियंत्रित करने के लिए), और फिर प्रयोग करें।

आपकी वर्तमान स्थिति के जवाब में, ऐसा लगता है कि आप परिकल्पना परीक्षणों की एक श्रृंखला के संयोजन के बाद हैं। मैं आपको फ़िशर की विधि को देखने की सलाह देता हूं। इसके अलावा, आप शायद फिशर की विधि पर निर्भर परीक्षण आँकड़ों को समायोजित करने के लिए ब्राउन या कोस्ट के तरीकों को देखना चाहते हैं। जैसा कि एक अन्य प्रतिवादी ने उल्लेख किया है, एक ग्राहक का रूपांतरण (या गैर-रूपांतरण) यह प्रभावित करने वाला है कि क्या वे अगली यात्रा पर खरीदारी करेंगे (या नहीं) - चाहे बटन कैसा भी हो।

afterthoughts:

  1. फिशर के तरीकों के बारे में अधिक जानकारी और स्रोत और उनके विस्तार फिशर की विधि के विकिपीडिया लेख पर पाए जा सकते हैं।
  2. मुझे लगता है कि यह बताना महत्वपूर्ण है कि एक प्रयोग वास्तव में निर्णायक नहीं है । एक छोटा पी-मान यह नहीं दर्शाता है कि आपका परिणाम निर्णायक है - केवल यह कि अशक्त परिकल्पना आपके द्वारा प्राप्त किए गए डेटा के आधार पर संभव नहीं है।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.