नॉन 50 के लिए सामान्य होने पर टी-टेस्ट?

77

बहुत पहले मैंने जाना कि एक दो नमूना टी-परीक्षण का उपयोग करने के लिए सामान्य वितरण आवश्यक था। आज एक सहकर्मी ने मुझे बताया कि उसने सीखा कि N> 50 के लिए सामान्य वितरण आवश्यक नहीं था। क्या यह सच है?

अगर सही है तो केंद्रीय सीमा प्रमेय के कारण?

normal-distribution t-test central-limit-theorem

— यहाँ तक की
स्रोत

3

एक साथ संबंधित प्रश्न बहुत Glen_b से अच्छा जवाब stats.stackexchange.com/questions/121852/...

— टिम

82

टी-टेस्ट की सामान्यता धारणा

एक बड़ी आबादी पर विचार करें जिससे आप एक विशेष आकार के कई अलग-अलग नमूने ले सकते हैं। (एक विशेष अध्ययन में, आप आम तौर पर इनमें से केवल एक नमूना एकत्र करते हैं।)

टी-टेस्ट मानता है कि विभिन्न नमूनों के साधन सामान्य रूप से वितरित किए जाते हैं; यह नहीं मानता है कि जनसंख्या सामान्य रूप से वितरित की जाती है।

केंद्रीय सीमा प्रमेय द्वारा, परिमित विचरण वाली जनसंख्या के नमूनों के माध्यम से जनसंख्या के वितरण की परवाह किए बिना सामान्य वितरण होता है। अंगूठे के नियम कहते हैं कि नमूना का अर्थ मूल रूप से सामान्य रूप से तब तक वितरित किया जाता है जब तक कि नमूना आकार कम से कम 20 या 30 हो। छोटे आकार के नमूने पर मान्य होने के लिए टी-टेस्ट के लिए, जनसंख्या वितरण लगभग सामान्य होना चाहिए।

टी-परीक्षण गैर-सामान्य वितरण से छोटे नमूनों के लिए अमान्य है, लेकिन यह गैर-सामान्य वितरण से बड़े नमूनों के लिए मान्य है।

गैर-सामान्य वितरण से छोटे नमूने

जैसा कि नीचे माइकल नोट करते हैं, अनुमानित सामान्यता के साधनों के वितरण के लिए आवश्यक नमूना आकार जनसंख्या की गैर-सामान्यता की डिग्री पर निर्भर करता है। लगभग सामान्य वितरणों के लिए, आपको बड़े गैर-सामान्य वितरण के रूप में बड़े नमूने की आवश्यकता नहीं होगी।

यहाँ कुछ सिमुलेशन हैं जिन्हें आप आर में चला सकते हैं ताकि इसके लिए महसूस किया जा सके। सबसे पहले, यहाँ जनसंख्या वितरण के एक जोड़े हैं।

curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom

अगले जनसंख्या वितरण से नमूनों के कुछ सिमुलेशन हैं। इन पंक्तियों में से प्रत्येक में, "10" नमूना आकार है, "100" नमूनों की संख्या है और इसके बाद का कार्य जनसंख्या वितरण को निर्दिष्ट करता है। वे नमूना साधन के हिस्टोग्राम का उत्पादन करते हैं।

hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

टी-टेस्ट के लिए वैध होने के लिए, ये हिस्टोग्राम सामान्य होना चाहिए।

require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

एक टी-टेस्ट की उपयोगिता

मुझे यह ध्यान रखना है कि मैंने जो ज्ञान दिया है, वह कुछ हद तक अप्रचलित है; अब हमारे पास कंप्यूटर हैं, हम टी-टेस्ट से बेहतर कर सकते हैं। फ्रैंक नोट्स के रूप में, आप शायद विल्कोक्सन परीक्षणों का उपयोग करना चाहते हैं कहीं भी आपको टी-टेस्ट चलाने के लिए सिखाया गया था।

— थॉमस लेविन
स्रोत

7

अच्छी व्याख्या (+1)। मैं, हालांकि, यह कहना चाहूंगा कि आबादी के गैर-सामान्यता की डिग्री पर अनुमानित सामान्यता के साधन के वितरण के लिए आवश्यक नमूना आकार। बड़े नमूनों के लिए, क्रमपरिवर्तन परीक्षण पर टी-टेस्ट को प्राथमिकता देने का कोई कारण नहीं है जो वितरण के बारे में कोई धारणा नहीं बनाता है।

— माइकल ल्यू

2

+1 हालांकि, जहां तक मुझे पता है, टी-टेस्ट सामान्यता से मध्यम विचलन के लिए काफी प्रतिरोधक है। इसके अलावा, एक दिलचस्प संबंधित चर्चा: सांख्यिकी.stackexchange.com/questions/2492/…

— nico

4

अच्छा जवाब, हालांकि एक छोटा सा विवरण है जिसे आपने याद किया है: डेटा के वितरण में परिमित विचरण होना चाहिए। टी-टेस्ट दो कॉची वितरण (या स्वतंत्रता की 2 डिग्री के साथ छात्र) के स्थान में अंतर की तुलना करने के लिए निराशाजनक है, इसलिए नहीं कि यह "गैर-मजबूत" है, बल्कि इसलिए कि इन वितरणों के लिए नमूने से परे अतिरिक्त प्रासंगिक जानकारी है और मानक विचलन जो टी-टेस्ट को फेंक देता है।

— प्रोबेबिलिसलॉजिक

2

इसके अलावा, टी-टेस्ट भी स्वाभाविक रूप से जांच की जा रही पैरामीटर के लिए विश्वास अंतराल पैदा करता है। (अभी भी दो पहले पैराग्राफ जो सीधे प्रश्न को स्वीकार करते हैं, मैं तीसरे से बहुत असहमत हूं)

— एरिक

6

टी-टेस्ट को जनसंख्या की सामान्यता की आवश्यकता होती है। टी-स्टैटिस्टिक्स के लिए टी-स्टूडेंट डिस्ट्रीब्यूशन के लिए जरूरी धारणा है। यदि आपके पास एक सामान्य आबादी नहीं है, तो आप टी स्टेटिस्टिक को एक मानक सामान्य चर के रूप में व्यक्त नहीं कर सकते हैं, जो कि ची-स्क्वेर चर की जड़ से उसकी स्वतंत्रता की डिग्री से विभाजित है। हो सकता है कि आप जो कहना चाह रहे हों, वह यह हो कि अगर कुछ स्थितियाँ सही हैं, जैसे बहुत अधिक तिरछापन या बड़ा नमूना, तो भी सामान्य होने पर भी परीक्षण वैध हो सकता है।

— टोनेलॉय

44

केंद्रीय सीमा प्रमेय इस संदर्भ में सोचने से कम उपयोगी नहीं है। सबसे पहले, जैसा कि किसी ने पहले ही बताया था, किसी को नहीं पता है कि वर्तमान नमूना आकार "काफी बड़ा" है। दूसरे, सीएलटी टाइप II त्रुटि के मुकाबले वांछित प्रकार I त्रुटि को प्राप्त करने के बारे में अधिक है। दूसरे शब्दों में, टी-टेस्ट अप्रतिस्पर्धी शक्ति-वार हो सकता है। यही कारण है कि विलकॉक्सन परीक्षण इतना लोकप्रिय है। यदि सामान्यता है, तो यह टी-टेस्ट की तुलना में 95% कुशल है। यदि सामान्यता धारण नहीं करती है तो यह टी-टेस्ट की तुलना में मनमाने ढंग से अधिक कुशल हो सकती है।

— फ्रैंक हैरेल
स्रोत

7

(+1) साइट पर आपका स्वागत है, जो मुझे खुशी है कि आपने पाया है। मैं यहां आपकी भागीदारी के लिए तत्पर हूं।

— कार्डिनल

4

(+1) विलकॉक्सन के बारे में अच्छी बात।

— whuber

18

टी-टेस्ट की मजबूती पर एक प्रश्न के मेरे पिछले उत्तर को देखें ।

विशेष रूप से, मैं onlinestatsbook एप्लेट के साथ खेलने की सलाह देता हूं ।

नीचे दी गई छवि निम्नलिखित परिदृश्य पर आधारित है:

अशक्त परिकल्पना सत्य है
काफी गंभीर तिरछापन
दोनों समूहों में समान वितरण
दोनों समूहों में एक ही विचरण
प्रति समूह 5 का नमूना आकार (यानी, आपके प्रश्न के अनुसार 50 से कम)
मैंने एक लाख से अधिक सिमुलेशन के लिए 10,000 सिमुलेशन बटन को लगभग 100 बार दबाया।

प्राप्त किए गए सिमुलेशन से पता चलता है कि 5% टाइप I त्रुटियों को प्राप्त करने के बजाय, मुझे केवल 4.5% टाइप I त्रुटियां मिल रही थीं।

आप इस पर विचार करते हैं कि यह मजबूत आपके दृष्टिकोण पर निर्भर करता है।

यहाँ छवि विवरण दर्ज करें

— जेरोमी एंग्लिम
स्रोत

4

+1 अच्छे अंक। तिरछे विकल्पों के साथ टी-टेस्ट की शक्ति , हालांकि, गंभीर रूप से खराब हो सकती है (उस बिंदु पर जहां यह विशाल प्रभाव आकारों के लिए भी अनिवार्य रूप से शून्य है)।

— whuber

6

$h=0.24999$

$p = 10^{-4}$ $1-p$

संपादित करें : duh, प्रति @ whuber की टिप्पणी में पकड़, उदाहरण मैंने दिया शून्य का मतलब नहीं था, इसलिए शून्य के लिए परीक्षण का मेरे प्रकार के साथ कोई लेना-देना नहीं है।

क्योंकि लॉटरी के उदाहरण में अक्सर शून्य का एक नमूना मानक विचलन होता है, टी-टेस्ट चोक। इसलिए इसके बजाय, मैं Goerg के Lambert W x Gaussian वितरण का उपयोग करके एक कोड उदाहरण देता हूं । मेरे द्वारा यहां उपयोग किए जाने वाले वितरण में लगभग 1355 का तिरछा भाग है।

#hey look! I'm learning R!
library(LambertW)

Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)

test_ttest <- function(sampsize) {
    samp <- LW.Gauss$rY(params)(n=sampsize)
    tval <- t.test(samp, mu = moms$mean)
    return(tval$p.value)
}

#to replicate randomness
set.seed(1)

pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

p    vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

यह कोड विभिन्न नमूना आकारों के लिए नाममात्र 0.05 के स्तर पर अनुभवजन्य अस्वीकार दर देता है। आकार 50 के नमूने के लिए, अनुभवजन्य दर 0.40 (!) है; नमूना आकार के लिए 250, 0.29; नमूना आकार के लिए 1000, 0.21; नमूना आकार 2000 के लिए, 0.18। स्पष्ट रूप से एक-नमूना टी-परीक्षण तिरछा से ग्रस्त है।

— shabbychef
स्रोत

p = 0

$p=0$

1

केंद्रीय सीमा प्रमेय (आवश्यक शर्तों के तहत) स्थापित करता है कि टी-स्टेटिस्टिक का अंश असमान रूप से सामान्य है। टी-स्टेटिस्टिक में भी एक भाजक होता है। एक टी-वितरण के लिए आपको भाजक के स्वतंत्र और चौकोर-रूट-ऑफ-ए-ची-स्क्वायर-ऑन-इट-डीएफ होने की आवश्यकता होगी।

और हम जानते हैं कि यह स्वतंत्र नहीं होगा (जो सामान्य की विशेषता है!)

स्लटस्की का प्रमेय सीएलटी के साथ मिलकर आपको बताता है कि टी-स्टेटिस्टिक एसिम्पोटिक रूप से सामान्य है (लेकिन जरूरी नहीं कि बहुत उपयोगी दर पर)।

क्या प्रमेय यह स्थापित करेगा कि गैर-सामान्यता होने पर टी-आँकड़ा लगभग टी-वितरित होता है, और इसमें कितनी तेजी आती है? (बेशक, अंततः t- सामान्य के करीब भी जाएगा, लेकिन हम यह मान रहे हैं कि दूसरे सन्निकटन के लिए सन्निकटन केवल सामान्य सन्निकटन का उपयोग करने से बेहतर होगा ...)

$t$

$n$

— Glen_b
स्रोत

3

x_{i} + x_{j}

$x_{i}+x_{j}$

x_{i} - x_{j}

$x_{i}-x_{j}$

c o v (x_{i} + x_{j}, x_{i} - x_{j}) = v a r (x_{i}) - v a r (x_{j}) + c o v (x_{i}, x_{j}) - c o v (x_{j}, x_{i}) = 0

$cov(x_{i}+x_{j},x_{i}-x_{j})=var(x_{i})-var(x_{j})+cov(x_{i},x_{j})-cov(x_{j},x_{i})=0$

v a r (x_{i}) = v a r (x_{j})

$var(x_{i})=var(x_{j})$

1

दुर्भाग्यवश, यदि हम एक टी-वितरण के साथ समाप्त हो रहे हैं, तो असंबद्ध और स्वतंत्र के बीच का अंतर प्रासंगिक है।

— ग्लेन_ बी

0

हां, केंद्रीय सीमा प्रमेय हमें बताता है कि यह सच है। जब तक आप अत्यधिक भारी पूंछ वाले लक्षणों से बचते हैं, तब तक गैर-सामान्यता मध्यम से बड़े नमूनों में कोई समस्या नहीं प्रस्तुत करती है।

यहाँ एक उपयोगी समीक्षा पत्र है;

http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546

विलकॉक्सन परीक्षण (दूसरों द्वारा उल्लिखित) में भयानक शक्ति हो सकती है जब विकल्प मूल वितरण का स्थान परिवर्तन नहीं होता है। इसके अलावा, जिस तरह से यह वितरण के बीच अंतर को मापता है वह सकर्मक नहीं है।

— अतिथि
स्रोत

विलकॉक्सन के बारे में दिलचस्प बातें। हालाँकि, टी-टेस्ट में समान कठिनाइयाँ हैं: यह विशेष रूप से खराब बदलावों का पता लगाने में बुरा है जो कि वृद्धि हुई विचरण के साथ है। परिवर्तनशीलता के बारे में थोड़ा मुख्य रूप से वर्तमान संदर्भ में एक जिज्ञासा प्रतीत होती है; यह देखना मुश्किल है कि मूल परिकल्पना परीक्षण या इसकी व्याख्या के लिए यह कैसे प्रासंगिक है। (लेकिन शायद एनोवा या कई तुलना सेटिंग में

— इंट्रोसेन्टिविटी

असमान विचरण t- परीक्षण (जो कुछ सॉफ़्टवेयर में डिफ़ॉल्ट है) में विषमलैंगिकता के साथ समस्या नहीं है।

— मेहमान

सकारात्मकता के बारे में; नमूना साधनों की रिपोर्टिंग, या अंतर में अंतर (जो कि एक टी-टेस्ट दृष्टिकोण का उपयोग करके स्वाभाविक है) पाठक को कुछ ऐसा देता है जिस पर वे विचार कर सकते हैं जब अन्य आबादी से नमूना लेते हैं। विलकॉक्सन परीक्षण की गैर-संक्रामकता का मतलब है कि इस दृष्टिकोण का ऐसा कोई एनालॉग नहीं है; डेटा का रैंक का उपयोग करना एक बहुत ही सीमित दृष्टिकोण है।

— अतिथि

1

(1) Satterthwaite-Welch (असमान विचरण) परीक्षण मेरे द्वारा संदर्भित शक्ति हानि को दूर नहीं करता है (हालाँकि यह थोड़ी मदद कर सकता है)। (2) मुझे लगता है कि आप "सीमित" के रूप में रैंकों का उपयोग करने के लिए चरम पर हैं। अपने जवाब में, @ फ्रेंक हरेल ने अध्ययनों का जिक्र किया था कि कैसे विल्कोक्सन परीक्षण कई सेटिंग्स में उच्च दक्षता बनाए रखता है: यह दर्शाता है कि रैंकों का उपयोग करना टी परीक्षणों की तुलना में प्रभावी और अधिक लचीला दोनों नहीं , बल्कि अधिक सीमित है।

— whuber

(1) नहीं, लेकिन यह सही प्रकार I त्रुटि दर देता है, मध्यम से बड़े नमूनों में (2) धन्यवाद, लेकिन मैं सम्मानपूर्वक असहमत हूं। विल्कोक्सन पर टी-परीक्षणों का उपयोग करने से परीक्षण अंतराल और विश्वास अंतराल का उपयोग करने के बीच की खाई को पाटना बहुत आसान हो जाता है। यदि कोई केवल एक परीक्षण करना चाहता है, और कभी भी एक अध्ययन में दो समूहों से परे नहीं दिखता है, तो विल्कोक्सन की निश्चित रूप से ऐसी स्थितियां हैं जहां यह अच्छी तरह से काम करता है। लेकिन अक्सर हम केवल परीक्षण नहीं करना चाहते हैं, और उपयोगकर्ताओं को अन्य स्थितियों के परिणामों को सामान्य बनाने में मदद करना चाहते हैं; विलकॉक्सन परीक्षण तब सहायक नहीं होता है।

— अतिथि

0

एक विकल्प के रूप में विलकॉक्सन-मैन-व्हिटनी परीक्षण के उपयोग के बारे में मैं कागज की जांच करता हूं विल्कोक्सॉन-मैन-व्हिटनी परीक्षण जांच के तहत

साधनों या मध्यस्थों की एक परीक्षा के रूप में, विलकॉक्सन-मान-व्हिटनी (डब्ल्यूएमडब्ल्यू) परीक्षण शुद्ध बदलाव मॉडल से विचलन के लिए गंभीर रूप से निर्लिप्त हो सकता है।

ये हैं कागज के लेखकों की सिफारिश:

रैंक ट्रांसफ़ॉर्मेशन दो नमूनों के अलग-अलग तरीकों, मानक विचलन और तिरछेपन को बदल सकता है। एक ही स्थिति जिसमें रैंक परिवर्तन की गारंटी एक लाभकारी प्रभाव प्राप्त करने के लिए होती है जब वितरण समान होते हैं और नमूना आकार समान होते हैं। इन बल्कि सख्त मान्यताओं से विचलन के लिए, नमूना क्षणों पर रैंक परिवर्तन के प्रभाव अप्रत्याशित हैं। कागज के सिमुलेशन अध्ययन में, डब्ल्यूएमडब्ल्यू परीक्षण की तुलना फ्लिग्नर-पोलिकेलो परीक्षण (एफपी), ब्रूनर-मुन्जेल परीक्षण (बीएम), दो-नमूना टी परीक्षण (टी), वेल्श यू परीक्षण (यू) के साथ की गई थी। और रैंक (आरयू) पर वेल्च यू परीक्षण। चार रैंक-आधारित परीक्षण (WMW, FP, BM, और RU) ने समान प्रदर्शन किया, हालांकि BM परीक्षण अक्सर दूसरों की तुलना में थोड़ा बेहतर था। जब नमूना आकार समान थे, पैरामीट्रिक परीक्षण (टी और यू) समान साधनों की शून्य परिकल्पना के तहत रैंक-आधारित परीक्षणों से बेहतर थे, लेकिन समान मध्यस्थों की शून्य परिकल्पना के तहत नहीं। जब नमूना आकार असमान थे, तो बीएम, आरयू और यू परीक्षणों ने सबसे अच्छा प्रदर्शन किया। कई सेटिंग्स के लिए, जनसंख्या के गुणों में छोटे बदलाव से परीक्षणों के प्रदर्शन में बड़े बदलाव आए। सारांश में, बड़े नमूने अनुमानित WMW परीक्षण दो आबादी के साधनों या मध्यस्थों की तुलना करने के लिए एक खराब विधि हो सकती है, जब तक कि दो वितरणों में समान आकार और समान पैमाने न हों। यह समस्या विभिन्न डिग्री में सटीक WMW परीक्षण, FP परीक्षण, BM परीक्षण और रैंक के लिए वेल्च U परीक्षण पर लागू होती है। WMW परीक्षण का उपयोग करते समय, लेखक यह सलाह देते हैं कि रैंक किए गए नमूनों के गुणों को तिरछापन और विचरण विषमता के संकेतों के लिए अच्छी तरह से जांच की जाती है।

— user2310909
स्रोत