ए / बी परीक्षण के परिणामों का विश्लेषण जो सामान्य रूप से वितरित नहीं होते हैं, स्वतंत्र टी-टेस्ट का उपयोग करते हुए


14

मेरे पास ए / बी परीक्षण (एक नियंत्रण समूह, एक सुविधा समूह) से परिणामों का एक सेट है जो एक सामान्य वितरण के लायक नहीं है। वास्तव में वितरण लन्दौ वितरण के अधिक निकट है।

मेरा मानना ​​है कि स्वतंत्र टी-परीक्षण के लिए आवश्यक है कि नमूने कम से कम लगभग सामान्य रूप से वितरित हों, जो कि टी-टेस्ट को महत्व परीक्षण के एक वैध तरीके के रूप में उपयोग करके मुझे हतोत्साहित करते हैं।

लेकिन मेरा सवाल यह है कि किस बिंदु पर कोई यह कह सकता है कि टी-टेस्ट महत्व परीक्षण का एक अच्छा तरीका नहीं है?

या एक और तरीका है, कोई कैसे निर्धारित कर सकता है कि टी-टेस्ट के पी-वैल्यू कितने विश्वसनीय हैं, केवल डेटा सेट दिया गया है?

जवाबों:


8

आपके डेटा का वितरण सामान्य होने की आवश्यकता नहीं है, यह नमूना वितरण है जो लगभग सामान्य होना चाहिए। यदि आपका नमूना आकार काफी बड़ा है, तो केंद्रीय सीमा प्रमेय के कारण, लैंडौ वितरण से साधनों का नमूना वितरण लगभग सामान्य होना चाहिए ।

तो इसका मतलब है कि आपको अपने डेटा के साथ सुरक्षित रूप से टी-टेस्ट का उपयोग करने में सक्षम होना चाहिए।

उदाहरण

आइए इस उदाहरण पर विचार करें: मान लें कि हमारे पास मुन = 0 और sd = 0.5 के साथ Lognormal वितरण की आबादी है (यह Landau के समान दिखता है)

असामान्य घनत्व

इसलिए हम नमूना के माध्य की गणना करते हुए हर बार इस वितरण से ५००० बार नमूना लेते हैं

और यही हमें मिलता है

नमूने का वितरण

बिल्कुल सामान्य लगता है, है ना? यदि हम नमूना आकार बढ़ाते हैं, तो यह और भी स्पष्ट है

नमूने का वितरण

आर कोड

x = seq(0, 4, 0.05)
y = dlnorm(x, mean=0, sd=0.5)
plot(x, y, type='l', bty='n')


n = 30
m = 1000

set.seed(0)
samp = rep(NA, m)

for (i in 1:m) {
  samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}

hist(samp, col='orange', probability=T, breaks=25, main='sample size = 30')
x = seq(0.5, 1.5, 0.01)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))


n = 300
samp = rep(NA, m)

for (i in 1:m) {
  samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}

hist(samp, col='orange', probability=T, breaks=25, main='sample size = 300')
x = seq(1, 1.25, 0.005)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))

हाय, अलेक्सी! ऐसा लगता है कि आप आर में कुशल हैं, इसलिए मैं सोच रहा हूं, अगर आपको इस समस्या पर कोई सलाह है, तो मैं वर्तमान में इसके साथ फंस गया हूं: stackoverflow.com/questions/25101444/… । इसके अलावा, मुझे आपके साथ जुड़ने में खुशी होगी (पेशेवर सामाजिक नेटवर्क पर मेरे प्रोफाइल के लिए aleksandrblekh.com देखें), क्योंकि ऐसा लगता है कि हमारे कुछ सामान्य हित हैं (देशी भाषा :-) सहित)।
असेम्बली ब्लेक ऑल

यह एक महान व्याख्या है, और वास्तव में वह विधि है जिसे मैंने प्रयोग करके समाप्त किया है। मैं इस पद्धति के बारे में सोचना पसंद करता हूं क्योंकि पूरे नमूने को छोटे उप-नमूनों में विभाजित किया जाता है और डेटा सेट के वितरण के रूप में प्रत्येक उप-नमूने के साधन (सीएलटी के साथ औसत) का उपयोग किया जाता है। जवाब के लिए धन्यवाद!
teebszet

1

मूल रूप से एक स्वतंत्र टी-टेस्ट या 2 नमूना टी-टेस्ट का उपयोग यह जांचने के लिए किया जाता है कि क्या दो नमूनों का औसत काफी भिन्न है। या, दूसरे शब्दों में कहें, तो दो नमूनों के साधनों के बीच एक महत्वपूर्ण अंतर है।

अब, उन 2 नमूनों के साधन दो आँकड़े हैं, जो सीएलटी के अनुसार, यदि पर्याप्त नमूने प्रदान किए जाते हैं, तो सामान्य वितरण होता है। ध्यान दें कि CLT उस वितरण के कोई मायने नहीं रखता है जहाँ से माध्य आँकड़ा निर्मित होता है।

आम तौर पर एक z- परीक्षण का उपयोग किया जा सकता है, लेकिन अगर नमूने से संस्करण का अनुमान लगाया जाता है (क्योंकि यह अज्ञात है), कुछ अतिरिक्त अनिश्चितता पेश की जाती है, जिसे टी वितरण में शामिल किया गया है। यही कारण है कि 2-नमूना टी-टेस्ट यहां लागू होता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.