बहुत पहले मैंने जाना कि एक दो नमूना टी-परीक्षण का उपयोग करने के लिए सामान्य वितरण आवश्यक था। आज एक सहकर्मी ने मुझे बताया कि उसने सीखा कि N> 50 के लिए सामान्य वितरण आवश्यक नहीं था। क्या यह सच है?
अगर सही है तो केंद्रीय सीमा प्रमेय के कारण?
बहुत पहले मैंने जाना कि एक दो नमूना टी-परीक्षण का उपयोग करने के लिए सामान्य वितरण आवश्यक था। आज एक सहकर्मी ने मुझे बताया कि उसने सीखा कि N> 50 के लिए सामान्य वितरण आवश्यक नहीं था। क्या यह सच है?
अगर सही है तो केंद्रीय सीमा प्रमेय के कारण?
जवाबों:
टी-टेस्ट की सामान्यता धारणा
एक बड़ी आबादी पर विचार करें जिससे आप एक विशेष आकार के कई अलग-अलग नमूने ले सकते हैं। (एक विशेष अध्ययन में, आप आम तौर पर इनमें से केवल एक नमूना एकत्र करते हैं।)
टी-टेस्ट मानता है कि विभिन्न नमूनों के साधन सामान्य रूप से वितरित किए जाते हैं; यह नहीं मानता है कि जनसंख्या सामान्य रूप से वितरित की जाती है।
केंद्रीय सीमा प्रमेय द्वारा, परिमित विचरण वाली जनसंख्या के नमूनों के माध्यम से जनसंख्या के वितरण की परवाह किए बिना सामान्य वितरण होता है। अंगूठे के नियम कहते हैं कि नमूना का अर्थ मूल रूप से सामान्य रूप से तब तक वितरित किया जाता है जब तक कि नमूना आकार कम से कम 20 या 30 हो। छोटे आकार के नमूने पर मान्य होने के लिए टी-टेस्ट के लिए, जनसंख्या वितरण लगभग सामान्य होना चाहिए।
टी-परीक्षण गैर-सामान्य वितरण से छोटे नमूनों के लिए अमान्य है, लेकिन यह गैर-सामान्य वितरण से बड़े नमूनों के लिए मान्य है।
गैर-सामान्य वितरण से छोटे नमूने
जैसा कि नीचे माइकल नोट करते हैं, अनुमानित सामान्यता के साधनों के वितरण के लिए आवश्यक नमूना आकार जनसंख्या की गैर-सामान्यता की डिग्री पर निर्भर करता है। लगभग सामान्य वितरणों के लिए, आपको बड़े गैर-सामान्य वितरण के रूप में बड़े नमूने की आवश्यकता नहीं होगी।
यहाँ कुछ सिमुलेशन हैं जिन्हें आप आर में चला सकते हैं ताकि इसके लिए महसूस किया जा सके। सबसे पहले, यहाँ जनसंख्या वितरण के एक जोड़े हैं।
curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom
अगले जनसंख्या वितरण से नमूनों के कुछ सिमुलेशन हैं। इन पंक्तियों में से प्रत्येक में, "10" नमूना आकार है, "100" नमूनों की संख्या है और इसके बाद का कार्य जनसंख्या वितरण को निर्दिष्ट करता है। वे नमूना साधन के हिस्टोग्राम का उत्पादन करते हैं।
hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')
टी-टेस्ट के लिए वैध होने के लिए, ये हिस्टोग्राम सामान्य होना चाहिए।
require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')
एक टी-टेस्ट की उपयोगिता
मुझे यह ध्यान रखना है कि मैंने जो ज्ञान दिया है, वह कुछ हद तक अप्रचलित है; अब हमारे पास कंप्यूटर हैं, हम टी-टेस्ट से बेहतर कर सकते हैं। फ्रैंक नोट्स के रूप में, आप शायद विल्कोक्सन परीक्षणों का उपयोग करना चाहते हैं कहीं भी आपको टी-टेस्ट चलाने के लिए सिखाया गया था।
केंद्रीय सीमा प्रमेय इस संदर्भ में सोचने से कम उपयोगी नहीं है। सबसे पहले, जैसा कि किसी ने पहले ही बताया था, किसी को नहीं पता है कि वर्तमान नमूना आकार "काफी बड़ा" है। दूसरे, सीएलटी टाइप II त्रुटि के मुकाबले वांछित प्रकार I त्रुटि को प्राप्त करने के बारे में अधिक है। दूसरे शब्दों में, टी-टेस्ट अप्रतिस्पर्धी शक्ति-वार हो सकता है। यही कारण है कि विलकॉक्सन परीक्षण इतना लोकप्रिय है। यदि सामान्यता है, तो यह टी-टेस्ट की तुलना में 95% कुशल है। यदि सामान्यता धारण नहीं करती है तो यह टी-टेस्ट की तुलना में मनमाने ढंग से अधिक कुशल हो सकती है।
टी-टेस्ट की मजबूती पर एक प्रश्न के मेरे पिछले उत्तर को देखें ।
विशेष रूप से, मैं onlinestatsbook एप्लेट के साथ खेलने की सलाह देता हूं ।
नीचे दी गई छवि निम्नलिखित परिदृश्य पर आधारित है:
प्राप्त किए गए सिमुलेशन से पता चलता है कि 5% टाइप I त्रुटियों को प्राप्त करने के बजाय, मुझे केवल 4.5% टाइप I त्रुटियां मिल रही थीं।
आप इस पर विचार करते हैं कि यह मजबूत आपके दृष्टिकोण पर निर्भर करता है।
संपादित करें : duh, प्रति @ whuber की टिप्पणी में पकड़, उदाहरण मैंने दिया शून्य का मतलब नहीं था, इसलिए शून्य के लिए परीक्षण का मेरे प्रकार के साथ कोई लेना-देना नहीं है।
क्योंकि लॉटरी के उदाहरण में अक्सर शून्य का एक नमूना मानक विचलन होता है, टी-टेस्ट चोक। इसलिए इसके बजाय, मैं Goerg के Lambert W x Gaussian वितरण का उपयोग करके एक कोड उदाहरण देता हूं । मेरे द्वारा यहां उपयोग किए जाने वाले वितरण में लगभग 1355 का तिरछा भाग है।
#hey look! I'm learning R!
library(LambertW)
Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)
test_ttest <- function(sampsize) {
samp <- LW.Gauss$rY(params)(n=sampsize)
tval <- t.test(samp, mu = moms$mean)
return(tval$p.value)
}
#to replicate randomness
set.seed(1)
pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
p vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))
यह कोड विभिन्न नमूना आकारों के लिए नाममात्र 0.05 के स्तर पर अनुभवजन्य अस्वीकार दर देता है। आकार 50 के नमूने के लिए, अनुभवजन्य दर 0.40 (!) है; नमूना आकार के लिए 250, 0.29; नमूना आकार के लिए 1000, 0.21; नमूना आकार 2000 के लिए, 0.18। स्पष्ट रूप से एक-नमूना टी-परीक्षण तिरछा से ग्रस्त है।
केंद्रीय सीमा प्रमेय (आवश्यक शर्तों के तहत) स्थापित करता है कि टी-स्टेटिस्टिक का अंश असमान रूप से सामान्य है। टी-स्टेटिस्टिक में भी एक भाजक होता है। एक टी-वितरण के लिए आपको भाजक के स्वतंत्र और चौकोर-रूट-ऑफ-ए-ची-स्क्वायर-ऑन-इट-डीएफ होने की आवश्यकता होगी।
और हम जानते हैं कि यह स्वतंत्र नहीं होगा (जो सामान्य की विशेषता है!)
स्लटस्की का प्रमेय सीएलटी के साथ मिलकर आपको बताता है कि टी-स्टेटिस्टिक एसिम्पोटिक रूप से सामान्य है (लेकिन जरूरी नहीं कि बहुत उपयोगी दर पर)।
क्या प्रमेय यह स्थापित करेगा कि गैर-सामान्यता होने पर टी-आँकड़ा लगभग टी-वितरित होता है, और इसमें कितनी तेजी आती है? (बेशक, अंततः t- सामान्य के करीब भी जाएगा, लेकिन हम यह मान रहे हैं कि दूसरे सन्निकटन के लिए सन्निकटन केवल सामान्य सन्निकटन का उपयोग करने से बेहतर होगा ...)
हां, केंद्रीय सीमा प्रमेय हमें बताता है कि यह सच है। जब तक आप अत्यधिक भारी पूंछ वाले लक्षणों से बचते हैं, तब तक गैर-सामान्यता मध्यम से बड़े नमूनों में कोई समस्या नहीं प्रस्तुत करती है।
यहाँ एक उपयोगी समीक्षा पत्र है;
http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546
विलकॉक्सन परीक्षण (दूसरों द्वारा उल्लिखित) में भयानक शक्ति हो सकती है जब विकल्प मूल वितरण का स्थान परिवर्तन नहीं होता है। इसके अलावा, जिस तरह से यह वितरण के बीच अंतर को मापता है वह सकर्मक नहीं है।
एक विकल्प के रूप में विलकॉक्सन-मैन-व्हिटनी परीक्षण के उपयोग के बारे में मैं कागज की जांच करता हूं विल्कोक्सॉन-मैन-व्हिटनी परीक्षण जांच के तहत
साधनों या मध्यस्थों की एक परीक्षा के रूप में, विलकॉक्सन-मान-व्हिटनी (डब्ल्यूएमडब्ल्यू) परीक्षण शुद्ध बदलाव मॉडल से विचलन के लिए गंभीर रूप से निर्लिप्त हो सकता है।
ये हैं कागज के लेखकों की सिफारिश:
रैंक ट्रांसफ़ॉर्मेशन दो नमूनों के अलग-अलग तरीकों, मानक विचलन और तिरछेपन को बदल सकता है। एक ही स्थिति जिसमें रैंक परिवर्तन की गारंटी एक लाभकारी प्रभाव प्राप्त करने के लिए होती है जब वितरण समान होते हैं और नमूना आकार समान होते हैं। इन बल्कि सख्त मान्यताओं से विचलन के लिए, नमूना क्षणों पर रैंक परिवर्तन के प्रभाव अप्रत्याशित हैं। कागज के सिमुलेशन अध्ययन में, डब्ल्यूएमडब्ल्यू परीक्षण की तुलना फ्लिग्नर-पोलिकेलो परीक्षण (एफपी), ब्रूनर-मुन्जेल परीक्षण (बीएम), दो-नमूना टी परीक्षण (टी), वेल्श यू परीक्षण (यू) के साथ की गई थी। और रैंक (आरयू) पर वेल्च यू परीक्षण। चार रैंक-आधारित परीक्षण (WMW, FP, BM, और RU) ने समान प्रदर्शन किया, हालांकि BM परीक्षण अक्सर दूसरों की तुलना में थोड़ा बेहतर था। जब नमूना आकार समान थे, पैरामीट्रिक परीक्षण (टी और यू) समान साधनों की शून्य परिकल्पना के तहत रैंक-आधारित परीक्षणों से बेहतर थे, लेकिन समान मध्यस्थों की शून्य परिकल्पना के तहत नहीं। जब नमूना आकार असमान थे, तो बीएम, आरयू और यू परीक्षणों ने सबसे अच्छा प्रदर्शन किया। कई सेटिंग्स के लिए, जनसंख्या के गुणों में छोटे बदलाव से परीक्षणों के प्रदर्शन में बड़े बदलाव आए। सारांश में, बड़े नमूने अनुमानित WMW परीक्षण दो आबादी के साधनों या मध्यस्थों की तुलना करने के लिए एक खराब विधि हो सकती है, जब तक कि दो वितरणों में समान आकार और समान पैमाने न हों। यह समस्या विभिन्न डिग्री में सटीक WMW परीक्षण, FP परीक्षण, BM परीक्षण और रैंक के लिए वेल्च U परीक्षण पर लागू होती है। WMW परीक्षण का उपयोग करते समय, लेखक यह सलाह देते हैं कि रैंक किए गए नमूनों के गुणों को तिरछापन और विचरण विषमता के संकेतों के लिए अच्छी तरह से जांच की जाती है।