क्या टी-टेस्ट की मृत्यु की रिपोर्ट बहुत अतिरंजित है?

सीवी ऑल-टाइम क्लासिक्स के माध्यम से पढ़ना मुझे एक बयान में आया था जिसे मैं स्पष्ट करना चाहूंगा। यह पोस्ट है और मेरा प्रश्न समापन टिप्पणियों को संदर्भित करता है: "मुझे यह ध्यान रखना होगा कि मैं जो भी ज्ञान देता हूं, वह कुछ हद तक अप्रचलित है; अब जब हमारे पास कंप्यूटर हैं, तो हम टी-टेस्ट से बेहतर कर सकते हैं। फ्रैंक नोट्स के रूप में, आप। शायद कहीं भी विल्कोक्सन परीक्षणों का उपयोग करना चाहते हैं, जहां आपको टी-टेस्ट चलाना सिखाया गया था। "

इस बात को लेकर चिंता की कमी है कि क्या यह मान लिया जाए कि टी-टेस्ट को चलाने के लिए सैंपल माध्यमों का वितरण सामान्य है या नहीं, यह बहुत बड़ा फायदा है। और मुझे लगता है कि कंप्यूटर एक हवा में डेटा के दो वैक्टर के बीच मतभेदों की लंबी सूची को रैंक कर सकते हैं ... मुझे याद है कि यह मैन्युअल रूप से कई साल पहले कर रहा था, लेकिन मैं पचा ...

तो, क्या t- test वास्तव में अतीत की बात है? क्रमपरिवर्तन परीक्षणों के बारे में क्या? क्या वे आमतौर पर कोड की कुछ पंक्तियाँ लिखने के अर्थ में भी तदर्थ हैं ?

— एंटोनी परेलाडा
स्रोत

क्या एक क्रमपरिवर्तन परीक्षण तदर्थ बनाता है ? फिशर ने टी-परीक्षणों को इस हद तक उचित माना कि उनका व्यवहार एक क्रमपरिवर्तन परीक्षण के करीब था (खेद है कि मेरे पास हाथ करने के लिए सटीक उद्धरण नहीं है, अगर मुझे लगता है कि मैं इसे दे दूंगा), तो सुझाव है कि उसने देखा अधिक मौलिक के रूप में क्रमचय परीक्षण। मैं यह भी नहीं देखता कि दो-पूंछ के क्रमबद्ध परीक्षण के बारे में क्या मुश्किल है। लेकिन शायद मैं एक तरह के उत्तर की ओर भटक रहा हूं।

— Glen_b -Reinstate Monica

शायद समान-विचलन टी-टेस्ट के पक्ष में कुछ इसके बजाय एक साधारण मॉडल में मापदंडों के आकलन के संबंध में है जो आप मनोरंजन करना चाहते हैं।

— Scortchi - को पुनः स्थापित मोनिका

मैं यह नहीं कहूंगा कि क्लासिक एक नमूना (युग्मित सहित) और दो-नमूना समान भिन्नता वाले टी-परीक्षण बिल्कुल अप्रचलित हैं, लेकिन ऐसे विकल्पों की अधिकता है जिनमें उत्कृष्ट गुण हैं और कई मामलों में उनका उपयोग किया जाना चाहिए।

और न ही मैं बड़े नमूनों पर विलकॉक्सन-मैन-व्हिटनी परीक्षणों का तेजी से प्रदर्शन करने की क्षमता कहूंगा - या यहां तक कि क्रमपरिवर्तन परीक्षण - हाल ही में, मैं एक छात्र के रूप में 30 साल से अधिक समय से दोनों नियमित रूप से कर रहा था, और ऐसा करने की क्षमता थी उस बिंदु पर लंबे समय से उपलब्ध है।

हालांकि यह एक परीक्षण परीक्षण को कोड करना बहुत आसान है - यहां तक कि खरोंच से भी - एक बार बावजूद, यह तब भी मुश्किल नहीं था (यदि आपके पास इसे एक बार करने के लिए कोड था, तो विभिन्न परिस्थितियों में इसे करने के लिए संशोधन - अलग-अलग आँकड़े , विभिन्न डेटा, आदि - सीधे थे, आमतौर पर प्रोग्रामिंग में पृष्ठभूमि की आवश्यकता नहीं होती है)। $^\dagger$

तो यहाँ कुछ विकल्प हैं, और वे क्यों मदद कर सकते हैं:

वेल्च- Satterthwaite - जब आप आश्वस्त नहीं होते हैं कि संस्करण समान के करीब होंगे (यदि नमूना आकार समान हैं, तो समान विचरण धारणा महत्वपूर्ण नहीं है)
विलकॉक्सन-मैन-व्हिटनी - उत्कृष्ट अगर पूंछ सामान्य से अधिक या भारी होती है, विशेष रूप से ऐसे मामलों के तहत जो सममित के करीब हैं। यदि पूंछ सामान्य होने के करीब है तो साधनों पर क्रमपरिवर्तन परीक्षण थोड़ा अधिक शक्ति प्रदान करेगा।
मजबूत टी-परीक्षण - इनमें से एक किस्म होती है जिसमें सामान्य पर अच्छी शक्ति होती है, लेकिन भारी पूंछ या कुछ तिरछा विकल्पों के तहत भी अच्छी तरह से काम करते हैं (और अच्छी शक्ति बनाए रखते हैं)।
जीएलएम - उदाहरण के लिए गणना या निरंतर सही तिरछा मामलों (जैसे गामा) के लिए उपयोगी; ऐसी स्थितियों से निपटने के लिए डिज़ाइन किया गया है जहाँ विचरण का मतलब से संबंधित है।
यादृच्छिक प्रभाव या समय-श्रृंखला मॉडल उन मामलों में उपयोगी हो सकते हैं जहां निर्भरता के विशेष रूप हैं
बायेसियन दृष्टिकोण , बूटस्ट्रैपिंग और अन्य महत्वपूर्ण तकनीकों का ढेर जो उपरोक्त विचारों को समान लाभ प्रदान कर सकता है। उदाहरण के लिए, बायेसियन दृष्टिकोण के साथ एक मॉडल होना बहुत संभव है जो एक दूषित प्रक्रिया के लिए जिम्मेदार हो सकता है, एक ही समय में सभी गिना या तिरछा डेटा से निपट सकता है, और निर्भरता के विशेष रूपों को संभाल सकता है ।

हालांकि काम के विकल्प का ढेर मौजूद है, पुराने स्टॉक मानक बराबर विचरण दो-नमूना टी-टेस्ट अक्सर बड़े, समान आकार के नमूनों में अच्छा प्रदर्शन कर सकते हैं जब तक कि आबादी सामान्य से बहुत दूर नहीं होती (जैसे कि बहुत भारी पूंछ होना / तिरछा) और हमारे पास स्वतंत्रता है।

विकल्प उन परिस्थितियों की मेजबानी में उपयोगी होते हैं जहां हम सादे टी-टेस्ट के साथ आश्वस्त नहीं हो सकते हैं ... और फिर भी आमतौर पर अच्छा प्रदर्शन करते हैं जब टी-टेस्ट की धारणाएं पूरी होती हैं या मिलने के करीब होती हैं।

वेल्च एक समझदार डिफ़ॉल्ट है यदि वितरण सामान्य से बहुत दूर नहीं भटकाता है (बड़े नमूनों की अनुमति देता है अधिक लेवे की अनुमति देता है)।

जबकि क्रमपरिवर्तन परीक्षण उत्कृष्ट है, टी-टेस्ट की तुलना में शक्ति का कोई नुकसान नहीं होता है जब इसकी धारणाएं पकड़ती हैं (और ब्याज की मात्रा के बारे में सीधे अनुमान लगाने का उपयोगी लाभ), विल्कोक्सन-मान-व्हिटनी यकीनन एक बेहतर विकल्प है अगर पूंछ भारी हो सकती है; मामूली अतिरिक्त धारणा के साथ, डब्लूएमडब्ल्यू निष्कर्ष दे सकता है जो मीन-शिफ्ट से संबंधित है। (कुछ अन्य कारण हैं जो इसे क्रमोन्नति परीक्षण के लिए पसंद कर सकते हैं)

[यदि आप जानते हैं कि आप कह रहे हैं कि काउंटिंग, या प्रतीक्षा समय या इसी प्रकार के डेटा के साथ काम कर रहे हैं, तो जीएलएम मार्ग अक्सर समझदार होता है। यदि आप निर्भरता के संभावित रूपों के बारे में थोड़ा जानते हैं, तो, यह भी आसानी से नियंत्रित किया जाता है, और निर्भरता की क्षमता पर विचार किया जाना चाहिए।]

इसलिए जब टी-टेस्ट निश्चित रूप से अतीत की बात नहीं होगी, तो आप इसे लागू करते समय लगभग हमेशा उतना ही अच्छा या लगभग कर सकते हैं, और संभावित रूप से एक बढ़िया विकल्प प्राप्त कर सकते हैं जब यह किसी एक विकल्प को सूचीबद्ध नहीं करता है। । जो कहना है, मैं मोटे तौर पर टी-टेस्ट से संबंधित उस पोस्ट की भावना से सहमत हूं ... बहुत समय आपको डेटा एकत्र करने से पहले भी अपनी मान्यताओं के बारे में सोचना चाहिए, और यदि उनमें से कोई भी वास्तव में उम्मीद नहीं की जा सकती है टी-टेस्ट के साथ धारण करने के लिए, आमतौर पर लगभग कुछ भी नहीं खोने के लिए बस इस धारणा को नहीं बनाना है क्योंकि विकल्प आमतौर पर बहुत अच्छी तरह से काम करते हैं।

यदि कोई डेटा एकत्र करने की बड़ी समस्या के लिए जा रहा है तो निश्चित रूप से कोई कारण नहीं है कि आप अपने इनफोर्समेंट के लिए सबसे अच्छे तरीके पर विचार करते हुए थोड़ा समय निवेश न करें।

ध्यान दें कि मैं आमतौर पर मान्यताओं के स्पष्ट परीक्षण के खिलाफ सलाह देता हूं - न केवल यह गलत प्रश्न का उत्तर देता है, बल्कि ऐसा करने और फिर धारणा के अस्वीकृति या गैर-अस्वीकृति के आधार पर विश्लेषण का चयन करने से परीक्षण के दोनों विकल्पों के गुणों पर प्रभाव पड़ता है; यदि आप यथोचित रूप से धारणा नहीं बना सकते हैं (या तो क्योंकि आप प्रक्रिया के बारे में अच्छी तरह से जानते हैं कि आप इसे मान सकते हैं या क्योंकि प्रक्रिया आपकी परिस्थितियों में इसके प्रति संवेदनशील नहीं है), आम तौर पर आप इस प्रक्रिया का उपयोग करने के लिए बेहतर हैं। यह नहीं मानती।

$\dagger$

# set up some data
x <- c(53.4, 59.0, 40.4, 51.9, 43.8, 43.0, 57.6)
y <- c(49.1, 57.9, 74.8, 46.8, 48.8, 43.7)
xyv <- stack(list(x=x,y=y))$values
nx  <- length(x)

# do sample-x mean for all combinations for permutation test
permmean = combn(xyv,nx,mean)

# do the equivalent resampling for a randomization test
randmean <- replicate(100000,mean(sample(xyv,nx)))

# find p-value for permutation test
left  = mean(permmean<=mean(x))
# for the other tail, "at least as extreme" being as far above as the sample
# was below
right = mean(permmean>=(mean(xyv)*2-mean(x)))
pvalue_perm = left+right
"Permutation test p-value"; pvalue_perm

# this is easier: 
#      pvalue = mean(abs(permmean-mean(xyv))>=abs(mean(x)-mean(xyv))) 
# but I'd keep left and right above for adapting to other tests

# find p-value for randomization test
left  = mean(randmean<=mean(x))
right = mean(randmean>=(mean(xyv)*2-mean(x)))
pvalue_rand = left+right
"Randomization test p-value"; pvalue_rand

(परिणामी पी-मान क्रमशः 0.538 और 0.539 हैं; इसी सामान्य दो नमूना टी-परीक्षण का पी-मान 0.504 है और वेल्च-सटरथवेट टी-परीक्षण का 0.522 का पी-मूल्य है।)

ध्यान दें कि गणना के लिए कोड प्रत्येक मामले में क्रमपरिवर्तन परीक्षण के लिए संयोजनों के लिए 1 पंक्ति और पी-मान 1 पंक्ति में भी हो सकता है।

एक ऐसे कार्य के लिए इसे अपनाना जो एक क्रमपरिवर्तन परीक्षण या रैंडमाइजेशन टेस्ट को अंजाम देता है और एक टी-टेस्ट की तरह आउटपुट का उत्पादन एक तुच्छ मामला होगा।

यहाँ परिणामों का प्रदर्शन है:

# Draw a display to show distn & p-vale region for both 
opar <- par()
par(mfrow=c(2,1))
hist(permmean, n=100, xlim=c(45,58))
abline(v=mean(x), col=3)
abline(v=mean(xyv)*2-mean(x), col=3, lty=2)
abline(v=mean(xyv), col=4)
hist(randmean, n=100, xlim=c(45,58))
abline(v=mean(x), col=3)
abline(v=mean(xyv)*2-mean(x), col=3, lty=2)
abline(v=mean(xyv), col=4)

par(opar)

— Glen_b -Reinstate मोनिका
स्रोत

कोड के पहले ब्लॉक की 16 लाइन पर एक छोटा टाइपो होता है। मेरा मानना है कि इसे पढ़ना चाहिए: # pvalue = mean (abs (permmean-mean (xyv))> = abs (माध्य (x) -mean (xyv)))। इसके अलावा, दाएं पूंछ को दाहिने = माध्य (permmean> = 2 * माध्य (xyv) - माध्य (x)) के रूप में क्यों जांचा जाता है?

— एंटोनी परेलाडा

अच्छा उत्तर (+1), लेकिन मैं सामान्य रूप से इस कथन से सहमत नहीं हूं कि आमतौर पर धारणाएं न बनाकर हारने के लिए बहुत कम है, जब तक कि यह केवल टी-टेस्ट को संदर्भित न करे। यह सामान्य है या नहीं, यह थोड़ा अस्पष्ट है। अधिक जटिल मॉडल और सीमित नमूना आकार के लिए धारणाएं अक्सर महत्वपूर्ण होती हैं, उदाहरण के लिए कमजोर सूचनात्मक पुजारियों के रूप में।

— एरिक

@ एरिक यह एक सामान्य कथन के रूप में नहीं था। मुझे स्पष्ट करें

— Glen_b -Reinstate Monica

t

$t$

t

$t$

@ स्टेफ़न वहाँ बहुत सारे अन्य विचार हैं (और व्यापक रूप से उपयोग किए जाने वाले विकल्पों में से कुछ हद तक कम सेट, कम से कम यदि हम कई प्रतिगमन को देखते हैं) तो उस मामले में जवाब देना लंबा होगा और कुछ महत्वपूर्ण अंतर होंगे।

— Glen_b -Reinstate Monica