A / B परीक्षण के लिए किस सांख्यिकीय परीक्षण का उपयोग करना है?


12

हमारे पास 1000 नमूनों में से प्रत्येक के दो समूह हैं। हम प्रत्येक पलटन पर 2 मात्राएँ मापते हैं। पहला एक द्विआधारी चर है। दूसरा एक वास्तविक संख्या है जो एक भारी पूंछ वितरण का अनुसरण करता है। हम यह आकलन करना चाहते हैं कि प्रत्येक मैट्रिक के लिए कौन सा कोहर्ट सर्वश्रेष्ठ प्रदर्शन करता है। चुनने के लिए बहुत सारे सांख्यिकीय परीक्षण हैं: लोग z- परीक्षण का सुझाव देते हैं, अन्य टी-टेस्ट का उपयोग करते हैं, और अन्य मैन-व्हिटनी यू।

  • हमें अपने मामले के लिए प्रत्येक मीट्रिक के लिए कौन सी परीक्षा या परीक्षण चुनना चाहिए?
  • क्या होता है अगर एक परीक्षण कोहॉर्ट्स के बीच महत्वपूर्ण अंतर बताता है और कुछ अन्य परीक्षण गैर-महत्वपूर्ण अंतर का सुझाव देते हैं?

जवाबों:


12

यह देखते हुए कि आपके दो मैट्रिक्स 1) बाइनरी और 2) भारी टेल हैं, आपको टी-टेस्ट से बचना चाहिए जो सामान्य वितरण को मानता है।

मुझे लगता है कि मान-व्हिटनी यू आपका सबसे अच्छा विकल्प है और आपके वितरण सामान्य होने के बावजूद पर्याप्त रूप से कुशल होना चाहिए।

आपके दूसरे प्रश्न के बारे में:

क्या होता है अगर एक परीक्षण कोहॉर्ट्स के बीच महत्वपूर्ण अंतर बताता है और कुछ अन्य परीक्षण गैर-महत्वपूर्ण अंतर का सुझाव देते हैं?

यह असामान्य नहीं है यदि सांख्यिकीय अंतर सीमा रेखा है और डेटा में "गड़बड़" नमूना वितरण है। इस स्थिति के लिए विश्लेषक को प्रत्येक सांख्यिकीय परीक्षण की सभी मान्यताओं और सीमाओं पर सावधानीपूर्वक विचार करने की आवश्यकता होती है , और सांख्यिकीय परीक्षण को सबसे अधिक भार देना चाहिए जिसमें मान्यताओं के उल्लंघन की संख्या कम से कम हो।

सामान्य वितरण की धारणा लें। सामान्यता के लिए विभिन्न परीक्षण हैं, लेकिन यह कहानी का अंत नहीं है। कुछ परीक्षण सममित वितरण पर बहुत अच्छी तरह से काम करते हैं भले ही सामान्यता से कुछ विचलन हो, लेकिन तिरछा वितरण पर अच्छी तरह से काम नहीं करते हैं।

अंगूठे के एक सामान्य नियम के रूप में, मेरा सुझाव है कि आपको कोई भी परीक्षण नहीं चलाना चाहिए जहां इसकी किसी भी धारणा का स्पष्ट रूप से उल्लंघन हो।

EDIT: दूसरे वेरिएबल के लिए, वेरिएबल को एक में बदलना संभव हो सकता है, जो सामान्य रूप से वितरित (या कम से कम करीब) के रूप में लंबे समय तक ट्रांसफॉर्मर ऑर्डर-प्रोटेक्टिंग है। आपको इस बात का अच्छा विश्वास होना चाहिए कि परिवर्तन दोनों सहकर्मियों के लिए एक सामान्य वितरण पैदा करता है। यदि आप लॉग-सामान्य वितरण के लिए दूसरा चर फिट करते हैं, तो एक लॉग फ़ंक्शन इसे सामान्य वितरण में बदल देता है। लेकिन अगर वितरण पारेतो (बिजली कानून) है, तो सामान्य वितरण में कोई परिवर्तन नहीं होता है।

संपादित करें: जैसा कि इस टिप्पणी में सुझाया गया है , आपको निश्चित रूप से बेइज़ियन अनुमान को टी-परीक्षण और अन्य अशक्त परिकल्पना महत्व परीक्षण (एनएचएसटी) के विकल्प के रूप में विचार करना चाहिए ।


जानकारी के लिए धन्यवाद। मैं पर्याप्त स्पष्ट नहीं था, मेरे पास दो मात्राएँ हैं जिनमें से एक द्विआधारी है और दूसरी जो भारी पूंछ वितरण के बाद एक वास्तविक संख्या है। मैंने इसे स्पष्ट करने के लिए प्रश्न का संपादन किया।
इलियासफ्ल

हां, मुझे लगता है कि मैं समझता हूं। आप बाइनरी चर पर एक बार और असली चर (भारी पूंछ वितरण) पर एक बार परीक्षण चलाना चाहते हैं। मैं दोनों के लिए मान-व्हिटनी यू चलाने की सिफारिश कर रहा हूं।

मान-व्हिटनी बाइनरी डेटा के लिए उपयुक्त क्यों होगा?
Glen_b -Reinstate Monica

मान-व्हिटनी यू गैर-सामान्य वितरण के लिए प्रभावी है, जिसमें दो मूल्यों (यानी बाइनरी) के साथ असतत वितरण शामिल हैं। यदि सभी डेटा बाइनरी थे, तो शायद एक और परीक्षण बेहतर काम करेगा।
MrMititology

क्या कोई पुष्टि कर सकता है कि क्या यह सच है? ...

7

वास्तविक-मूल्यवान डेटा के लिए, आप अपने डेटा के बूटस्ट्रैप के आधार पर अपनी खुद की परीक्षा आँकड़ा तैयार करने पर भी विचार कर सकते हैं। जब आप गैर-सामान्य जनसंख्या वितरण के साथ काम कर रहे हों, या एक सुविधाजनक विश्लेषणात्मक समाधान न होने वाले पैरामीटर के आसपास एक विश्वास अंतराल विकसित करने की कोशिश कर रहे हों, तो यह दृष्टिकोण सटीक परिणाम उत्पन्न करता है। (पूर्व आपके मामले में सत्य है। मैं केवल संदर्भ के लिए उत्तरार्द्ध का उल्लेख करता हूं।)

अपने वास्तविक-मूल्यवान डेटा के लिए, आप निम्नलिखित कार्य करेंगे:

  1. अपने दो साथियों को पूल करें।
  2. प्रतिस्थापन के साथ, पूल से 1000 तत्वों के दो समूहों का नमूना लें।
  3. दो समूहों के बीच नमूना माध्य के अंतर की गणना करें।
  4. इन मतभेदों के वितरण को विकसित करने के लिए चरण 2 और 3 को कुछ हजार बार दोहराएं।

एक बार जब आप उस वितरण को प्राप्त कर लेते हैं, तो अपने वास्तविक नमूनों के साधनों में अंतर की गणना करें और एक पी-मूल्य की गणना करें।


धन्यवाद, इसलिए आप एक वितरण के साथ समाप्त होते हैं, जो कुछ औसत और मानक विचलन के साथ सामान्य होना चाहिए। विजेता का निर्णय करने के लिए आप उस से पी-मान और शायद विश्वास अंतराल की गणना कैसे करेंगे?
इलियासफल

वितरण सामान्य रूप से आवश्यक नहीं होगा। मोटे तौर पर इसका वितरण होता था, जिसमें से इसका नमूना लिया गया। यह एक बूटस्ट्रैप का उपयोग करने की सुंदरता है। किसी भी मामले में, आप अपने वास्तविक परिणामों से अपने परीक्षण सांख्यिकीय की गणना करके एक पी-मूल्य प्राप्त करते हैं। यानी प्रत्येक सहकर्मी के साधनों का अंतर। फिर उस संख्या को वितरण से तुलना करें। आपके द्वारा प्राप्त किए जाने वाले अंतर के लिए एक पक्षीय परीक्षण के लिए आपका प्रतिशत प्राप्त करने का प्रतिशत आपका पी-वैल्यू है।
नाथन गोल्ड

4
नाथन जो वर्णन कर रहे हैं, वह महत्व परीक्षण के बेयसियन तरीकों का आधार भी है। मैंने बायेसियन एस्टीमेशन को टी-टेस्ट (BEST) दृष्टिकोण के लिए इस्तेमाल किया है (और वर्तमान में उपयोग करते हैं) । यदि आप पूलिंग दृष्टिकोण को लागू करने का इरादा रखते हैं तो आपको उस ढांचे को देखना चाहिए।
cwharland

0

मैं दूसरा @ MrMititology का उत्तर। वास्तव में मैं सोच रहा था कि क्या MWU परीक्षण स्वतंत्र अनुपात के परीक्षण से कम शक्तिशाली होगा, क्योंकि मैंने जिन पाठ्यपुस्तकों से सीखा और पढ़ाया जाता था, उन्होंने कहा कि MWU को केवल क्रमिक (या अंतराल / अनुपात) डेटा पर लागू किया जा सकता है।

लेकिन मेरे सिमुलेशन परिणाम, नीचे प्लॉट किए गए, यह इंगित करते हैं कि MWU परीक्षण वास्तव में अनुपात परीक्षण की तुलना में थोड़ा अधिक शक्तिशाली है, जबकि टाइप I त्रुटि को अच्छी तरह से नियंत्रित करते हुए (समूह 1 = 0.50 की जनसंख्या अनुपात में)।

यहाँ छवि विवरण दर्ज करें

समूह 2 का जनसंख्या अनुपात 0.50 रखा गया है। प्रत्येक बिंदु पर पुनरावृत्तियों की संख्या 10,000 है। मैंने येट के सुधार के बिना सिमुलेशन दोहराया लेकिन परिणाम समान थे।

library(reshape)

MakeBinaryData <- function(n1, n2, p1){
  y <- c(rbinom(n1, 1, p1), 
        rbinom(n2, 1, 0.5))
  g_f <- factor(c(rep("g1", n1), rep("g2", n2)))
  d <- data.frame(y, g_f)
  return(d)
}

GetPower <- function(n_iter, n1, n2, p1, alpha=0.05, type="proportion", ...){
  if(type=="proportion") {
    p_v <- replicate(n_iter, prop.test(table(MakeBinaryData(n1, n1, p1)), ...)$p.value)
  }

  if(type=="MWU") {
    p_v <- replicate(n_iter, wilcox.test(y~g_f, data=MakeBinaryData(n1, n1, p1))$p.value)
  }

  empirical_power <- sum(p_v<alpha)/n_iter
  return(empirical_power)
}

p1_v <- seq(0.5, 0.6, 0.01)
set.seed(1)
power_proptest <- sapply(p1_v, function(x) GetPower(10000, 1000, 1000, x))
power_mwu <- sapply(p1_v, function(x) GetPower(10000, 1000, 1000, x, type="MWU"))

आपका परिणाम चित्र सभी काला है
जोकर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.