एक प्रयोग को फिर से चलाकर वेब / ए / बी परीक्षणों को मान्य करें - क्या यह वैध है?


11

ए / बी टेस्टिंग कंपनी द्वारा दूसरे दिन एक वेबिनार ने अपने रेजिडेंट "डेटा साइंटिस्ट" को समझाया कि आपको प्रयोग को फिर से चलाकर अपने परिणामों को मान्य करना चाहिए। आधार यह था, यदि आप 95% आत्मविश्वास का चयन करते हैं, तो झूठे सकारात्मक के 5% (1/20) होने की संभावना है। यदि आप अपने प्रयोग को समान बाधाओं के साथ फिर से चलाते हैं, तो अब एक 1/400 है (मुझे लगता है कि उन्होंने इसे 0.05 ^ 2 = 1/400 के रूप में निर्धारित किया है)

क्या यह एक मान्य कथन है? (यानी, "दो बार चलाएं, दो सांख्यिकीय महत्व जीतता है = झूठी सकारात्मक की 1/400 संभावना")? क्या यह आपके महत्व स्तर को बढ़ाने के लिए एक बेहतर दृष्टिकोण रहा होगा?

एक व्यवसाय के दृष्टिकोण से, मेरे पास जो चिंता है, प्रयोग को फिर से चलाने से, आप अधिक उपयोगकर्ताओं को एक अवर पृष्ठ (उपचार) के लिए उजागर कर रहे हैं, और इस तरह संभावित बिक्री पर खो रहे हैं।


2
हाय जॉन, Stats.SE में आपका स्वागत है! यदि आप किसी भी उत्तर से संतुष्ट हैं, तो आपको उनमें से एक को स्वीकार करना चाहिए, या जो आप खोज रहे हैं उसके बारे में अधिक स्पष्ट प्रश्न प्रदान करें।
क्रिस्टोफर अदन

जॉन, मुझे संदेह है कि वास्तविक मुद्दे के संदर्भ में चिंता है। यह दुर्लभ है कि लोग एक समय में केवल एक चीज सीखने के लिए संसाधनों को समर्पित करेंगे: वे अपने डेटा का अधिकतम लाभ उठाना चाहते हैं, अच्छे कारण के लिए। इसका मतलब है कि प्रत्येक डेटासेट का उपयोग कई परीक्षणों के लिए किया जाएगा। इसके अलावा, कभी-कभी परीक्षण पोस्ट हॉक होते हैं : वे डेटा में देखे गए पैटर्न से प्रेरित थे। ऐसे मामलों में परीक्षणों में वास्तव में वांछित 95% (या जो भी) आत्मविश्वास और प्रतिकृति आवश्यक नहीं है। तो: "प्रयोग" से आपका क्या तात्पर्य है? जवाब उस छोटे से विस्तार पर टिका है!
whuber

प्रयोग पुनरावृत्ति और महत्व मूल्यों के बारे में, इस XKCD कॉमिक की जाँच करें: xkcd.com/882 उसको पढ़ने के बाद, ऊपर दिए गए टिप्पणी को देखें।
लुकास गैलिंडो

whuber: विस्तार की कमी के लिए खेद है, मैं वेबसाइट अनुकूलन का संदर्भ दे रहा हूं, इसलिए एक उदाहरण प्रयोग मेरे होमपेज के दो संस्करणों का परीक्षण करेगा, जिसमें प्रत्येक के लिए उपयोगकर्ताओं के 50/50 विभाजन होंगे।
जॉन

जवाबों:


3

पल के लिए झूठे सकारात्मक की संभावनाओं को अनदेखा करना, मैं इसे इस तरह से देखूंगा:

  1. यदि आप प्रयोग को दो बार एक ही परिणाम प्राप्त करते हैं, तो आपको पता नहीं है कि दो सकारात्मक सकारात्मक परिणाम थे या एक पंक्ति में दो गलत सकारात्मक परिणाम।
  2. यदि आप दो बार प्रयोग चलाते हैं और दो अलग-अलग परिणाम प्राप्त करते हैं, तो आप नहीं जानते कि कौन सा सकारात्मक सकारात्मक है और कौन सा गलत सकारात्मक परिणाम है।

या तो मामले में आपको एक तीसरा प्रयोग चलाना चाहिए, बस कुछ निश्चित होने के लिए। यह शायद उन प्रयोगों के लिए ठीक है जो अपेक्षाकृत सस्ते हैं, लेकिन जहां लागत संभावित रूप से अधिक है (ग्राहकों को खोने की तरह) आपको वास्तव में लाभ पर विचार करने की आवश्यकता है।

संभावनाओं को देखते हुए, पहली बार जब आप प्रयोग चलाते हैं, तो एक झूठी सकारात्मक का 1/20 मौका होता है। दूसरी बार जब आप प्रयोग चलाते हैं, तब भी एक झूठे सकारात्मक का 1/20 मौका होता है (यह सोचें कि यह एक मरने के रूप में है जहां प्रत्येक रोल में एक निश्चित संख्या प्राप्त करने का 1/6 मौका है)। एक पंक्ति में दो गलत सकारात्मक होने का केवल 1/400 मौका है।

असली मुद्दा कड़े प्रक्रियाओं के साथ एक अच्छी तरह से परिभाषित परिकल्पना है, और एक नमूना आकार, त्रुटि का स्तर, और विश्वास अंतराल है जिसके साथ आप या खर्च कर सकते हैं। प्रयोग की पुनरावृत्ति की खोज के लिए छोड़ दिया जाना चाहिए

  1. समय के साथ ग्राहक
  2. संगठन द्वारा किए गए परिवर्तन
  3. प्रतियोगिता द्वारा किए गए परिवर्तन

बजाय दूसरे अनुमान लगाने के परिणाम। हालाँकि प्रबंधकों को यह समझाना आसान कहा जाता है।


mjc, टिप्पणी के लिए बहुत बहुत धन्यवाद - यह वही है जो मैं देख रहा था।
जॉन

2

हाँ, यह कथन सही है, यह मानते हुए कि आपका प्रयोग आदर्श है। लेकिन एक आदर्श प्रयोग प्राप्त करना इस तरह से कठिन है जिस तरह से इस भावना को विश्वसनीयता मिलती है। "वास्तविक दुनिया" डेटा गन्दा, जटिल और पहली जगह में व्याख्या करने में कठिन है। त्रुटिपूर्ण विश्लेषण के लिए जबरदस्त जगह है, छिपे हुए चर (बहुत कम "वही अड़चनें हैं"), या एक डाटा साइंटिस्ट के बीच गलतफहमी अपना काम कर रही है और एक मार्किंग एग्जीक्यूट कर रही है।

एक व्यवसाय के दृष्टिकोण से, अच्छी कार्यप्रणाली सुनिश्चित करें और परिणामों में अति आत्मविश्वास न होने पर; एक मुश्किल चुनौती जितना आप सोच सकते हैं। एक बार जब आप उन लोगों को नीचे लाते हैं, तो उस 5% पर काम करें।


धन्यवाद, जो पहले सवाल का जवाब देता है। दूसरे प्रश्न के बारे में क्या: "क्या यह आपके महत्व स्तर को बढ़ाने के लिए एक बेहतर दृष्टिकोण होगा?" बस आर में एक त्वरित सिमुलेशन कर रहा है (समान प्रभाव आकार और शक्ति रखते हुए, केवल महत्व मूल्य बदल रहा है) मैं 95% महत्व पर 2X प्रयोगों को चलाने के बजाय केवल 97.5% महत्व का चयन करके ~ 4.8% कम डेटा एकत्र कर सकता हूं। मुझे स्पष्ट करना चाहिए - जब मैं पूछता हूं "क्या यह बेहतर होता .." मेरा मतलब है, क्या मैं कम डेटा एकत्र करके समान परिणाम प्राप्त कर सकता हूं।
जॉन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.