अत्यधिक तिरछे डेटा पर टी-परीक्षण


18

मेरे पास चिकित्सा लागत डेटा के हजारों टिप्पणियों के साथ एक डेटा सेट है। यह डेटा दाईं ओर तिरछा है और इसमें बहुत सारे शून्य हैं। यह लोगों के दो सेटों के लिए ऐसा दिखता है (इस मामले में दो आयु बैंड> 3000 प्रत्येक के साथ):

 Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
 0.0      0.0      0.0   4536.0    302.6 395300.0 
Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
 0.0      0.0      0.0   4964.0    423.8 721700.0 

यदि मैं इस डेटा पर वेल्च का परीक्षण करता हूँ तो मुझे एक परिणाम मिलता है:

Welch Two Sample t-test

data:  x and y
t = -0.4777, df = 3366.488, p-value = 0.6329
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2185.896  1329.358
sample estimates:
mean of x mean of y 
 4536.186  4964.455 

मुझे पता है कि इस डेटा पर एक टी-टेस्ट का उपयोग करना सही नहीं है क्योंकि यह इतनी बुरी तरह से गैर-सामान्य है। हालांकि, अगर मैं साधनों के अंतर के लिए एक क्रमचय परीक्षण का उपयोग करता हूं, तो मुझे हर समय लगभग समान पी-मूल्य मिलता है (और यह अधिक पुनरावृत्तियों के साथ करीब हो जाता है)।

आर में परमिट पैकेज का उपयोग करना और सटीक मोंटे कार्लो के साथ परमिट

    Exact Permutation Test Estimated by Monte Carlo

data:  x and y
p-value = 0.6188
alternative hypothesis: true mean x - mean y is not equal to 0
sample estimates:
mean x - mean y 
      -428.2691 

p-value estimated from 500 Monte Carlo replications
99 percent confidence interval on p-value:
 0.5117552 0.7277040 

क्रमपरिवर्तन परीक्षण आँकड़ा t.test मान के इतने करीब क्यों आ रहा है? यदि मैं डेटा का लॉग लेता हूं तो मुझे 0.28 का t.test पी-मूल्य और क्रमपरिवर्तन परीक्षण से समान मिलता है। मैंने सोचा था कि जो टी-टेस्ट का मान है, मैं उससे कहीं ज्यादा कचरा हूं। यह मेरे द्वारा पसंद किए गए कई अन्य डेटा सेटों के बारे में सही है और मैं सोच रहा हूं कि जब यह नहीं होना चाहिए तो टी-टेस्ट क्यों काम कर रहा है।

यहां मेरी चिंता यह है कि अलग-अलग लागतें iid नहीं हैं। बहुत अलग-अलग लागत वितरण वाले लोगों (महिलाओं बनाम पुरुषों, पुरानी स्थितियों आदि) के कई उप-समूह हैं जो केंद्रीय सीमा प्रमेय के लिए iid आवश्यकता की आवाज लगते हैं, या मुझे चिंता नहीं करनी चाहिए उसके बारे में?


ऐसा कैसे होता है कि आपके डेटा का न्यूनतम मूल्य और माध्य दोनों शून्य है?
एलेकोस पापाडोपोलोस

आधे से अधिक मूल्य शून्य हैं, यह दर्शाता है कि आधे लोगों की उस वर्ष कोई चिकित्सा देखभाल नहीं थी।
क्रिस

और आपको क्यों लगता है कि क्रमपरिवर्तन परीक्षण अलग होना चाहिए? (यदि दोनों समूहों में समान रूप से गैर-सामान्य वितरण होता है)
फेयरमाइल्स

ध्यान रखें कि iid दो अलग-अलग धारणाएँ हैं। पहला 'स्वतंत्र ’है। दूसरा 'समान रूप से वितरित ’है। आप यह सुझाव देते प्रतीत होते हैं कि अवलोकनों को 'समान रूप से वितरित नहीं' किया जाता है। यह अब तक प्रदान किए गए उत्तरों को प्रभावित नहीं करना चाहिए, क्योंकि हम अभी भी मान सकते हैं कि सभी अवलोकन वितरण के एक बड़े मिश्रण से हैं। लेकिन अगर आपको लगता है कि अवलोकन स्वतंत्र नहीं हैं, तो यह एक बहुत अलग और संभावित रूप से अधिक कठिन मुद्दा है।
zkurtz

जवाबों:


29

न तो टी-टेस्ट और न ही क्रमपरिवर्तन परीक्षण में दो ऐसे असाधारण तिरछे वितरणों के बीच के अंतर को पहचानने की बहुत शक्ति है। इस प्रकार वे दोनों एनोडाइन पी-वैल्यू देते हैं जो बिल्कुल भी महत्व नहीं दर्शाता है। मुद्दा यह नहीं है कि वे सहमत प्रतीत होते हैं; ऐसा इसलिए है क्योंकि उनके पास किसी भी अंतर का पता लगाने में कठिन समय है, वे बस असहमत नहीं हो सकते हैं!


कुछ अंतर्ज्ञान के लिए, विचार करें कि एक डेटासेट में एक एकल मान में परिवर्तन होने पर क्या होगा । माना कि उदाहरण के लिए, दूसरे डेटा सेट में अधिकतम 721,700 नहीं हुए थे। मतलब लगभग 721700/3000 से गिरा होगा, जो लगभग 240 है। फिर भी साधनों में अंतर केवल 4964-4536 = 438 है, दो बार भी बड़ा नहीं है। यह सुझाव देता है (हालांकि यह साबित नहीं होता है) कि किसी भी तरह के साधनों की तुलना में अंतर महत्वपूर्ण नहीं होगा।

हम यह सत्यापित कर सकते हैं कि टी-टेस्ट लागू नहीं है। आइए इन के समान सांख्यिकीय विशेषताओं के साथ कुछ डेटासेट उत्पन्न करें। ऐसा करने के लिए मैंने मिश्रण बनाए हैं जिसमें

  • 5/8
  • शेष डेटा में एक lognormal वितरण है।
  • उस वितरण के मापदंडों को मनाया साधन और तीसरे चतुर्थक को पुन: उत्पन्न करने के लिए व्यवस्थित किया जाता है।

इन सिमुलेशन में यह पता चला है कि अधिकतम मूल्य रिपोर्ट मैक्सिमा से दूर नहीं हैं, या तो।

चलो पहले डाटासेट को 10,000 बार दोहराते हैं और इसके माध्य को ट्रैक करते हैं। (जब हम दूसरे डेटासेट के लिए ऐसा करते हैं तो परिणाम लगभग समान होंगे।) इनमें से हिस्टोग्राम का मतलब माध्य के नमूना वितरण का अनुमान है। यह वितरण लगभग सामान्य होने पर टी-टेस्ट मान्य है; यह सामान्यता से किस हद तक विचलित होता है, यह दर्शाता है कि छात्र टी वितरण किस सीमा तक गलत करेगा। इसलिए, संदर्भ के लिए, मैंने इन परिणामों के लिए सामान्य वितरण की पीडीएफ भी (लाल रंग में) तैयार की है।

हिस्टोग्राम 1

हम बहुत विस्तार नहीं देख सकते क्योंकि कुछ बड़े बड़े आउटलेयर हैं। (यह मेरे द्वारा बताए गए साधनों की इस संवेदनशीलता का प्रकटीकरण है।) उनमें से 123 हैं - 1.23% - 10,000 से ऊपर। चलो बाकी पर ध्यान केंद्रित करें ताकि हम विस्तार देख सकें और क्योंकि ये आउटलेर्स वितरण की अनुमानित लॉगनोर्मलिटी के परिणामस्वरूप हो सकते हैं, जो मूल डेटासेट के लिए जरूरी नहीं है।

हिस्टोग्राम 2

(3000/428)2=50


यहाँ Rकोड है कि इन आंकड़ों का उत्पादन किया है।

#
# Generate positive random values with a median of 0, given Q3,
# and given mean. Make a proportion 1-e of them true zeros.
#
rskew <- function(n, x.mean, x.q3, e=3/8) {
  beta <- qnorm(1 - (1/4)/e)
  gamma <- 2*(log(x.q3) - log(x.mean/e))
  sigma <- sqrt(beta^2 - gamma) + beta
  mu <- log(x.mean/e) - sigma^2/2
  m <- floor(n * e)
  c(exp(rnorm(m, mu, sigma)), rep(0, n-m))
}
#
# See how closely the summary statistics are reproduced.
# (The quartiles will be close; the maxima not too far off;
# the means may differ a lot, though.)
#
set.seed(23)
x <- rskew(3300, 4536, 302.6)
y <- rskew(3400, 4964, 423.8)
summary(x)
summary(y)
#
# Estimate the sampling distribution of the mean.
#
set.seed(17)
sim.x <- replicate(10^4, mean(rskew(3367, 4536, 302.6)))
hist(sim.x, freq=FALSE, ylim=c(0, dnorm(0, sd=sd(sim.x))))
curve(dnorm(x, mean(sim.x), sd(sim.x)), add=TRUE, col="Red")
hist(sim.x[sim.x < 10000], xlab="x", freq=FALSE)
curve(dnorm(x, mean(sim.x), sd(sim.x)), add=TRUE, col="Red")
#
# Can a t-test detect a difference with more data?
#
set.seed(23)
n.factor <- 50
z <- replicate(10^3, {
  x <- rskew(3300*n.factor, 4536, 302.6)
  y <- rskew(3400*n.factor, 4964, 423.8)
  t.test(x,y)$p.value
})
hist(z)
mean(z < .05) # The estimated power at a 5% significance level

1
एक बेहद विषम डाटासेट जहां टी परीक्षण फिर भी का एक उदाहरण के लिए है (डेटा की बड़ी मात्रा की वजह से) लागू, कृपया देखें stats.stackexchange.com/questions/110418/... । इन दो मामलों को एक साथ दिखाने से सवाल का कोई कट-एंड-ड्राय जवाब नहीं मिलता है: आपको यह निर्णय लेना होगा कि टी-टेस्ट सार्थक और सटीक होगा या नहीं, यह तय करते समय डेटा के वितरण और डेटा की मात्रा दोनों पर विचार करना होगा।
whuber

3
मैंने इस प्रश्न को फिर से पाने में सक्षम होने की उम्मीद में फ़व्वारा लगाया है, जब उन लोगों के साथ सामना करना पड़ता है जो सोचते हैं कि n = 30 या n = 300 सिर्फ आगे बढ़ने के लिए पर्याप्त है और मान लीजिए कि नमूना सामान्य रूप से वितरित किया जाता है (और आगे)। मेरे पास अच्छे सिम्युलेटेड उदाहरण हैं, लेकिन यह दिखाना अच्छा है कि यह वास्तविक डेटा के साथ भी एक मुद्दा है।
Glen_b -Reinstate मोनिका

1
+1, लेकिन मुझे आश्चर्य है कि इस तरह की स्थिति में आपकी व्यावहारिक सिफारिश क्या होगी। क्या किसी को माध्य (शायद कुछ उच्च मात्रात्मक) के बजाय कुछ अन्य सांख्यिकीय के आधार पर क्रमपरिवर्तन परीक्षण का उपयोग करने की कोशिश करनी चाहिए? क्या साधनों पर मानक परीक्षण चलाने से पहले कुछ परिवर्तन करने का प्रयास करना चाहिए? या किसी को दो नमूनों के बीच एक महत्वपूर्ण अंतर का पता लगाने की उम्मीद छोड़ देनी चाहिए?
अमीबा का कहना है कि मोनिका

@amoeba अगर चिंता का मतलब साधनों में अंतर का परीक्षण करना है, तो क्रमपरिवर्तन परीक्षण से कोई मदद नहीं मिलेगी: आप यहां एक महत्वपूर्ण अंतर खोजने नहीं जा रहे हैं। यदि आप कुछ अन्य आंकड़ों का परीक्षण करते हैं, तो आप माध्य का परीक्षण नहीं कर रहे हैं (जो विशेष रूप से लागत डेटा के लिए प्रासंगिक है!), इसलिए कि क्या यह अनुशंसित किया जा सकता है उद्देश्यों पर निर्भर करता है।
whuber

4

जब n बड़ा होता है (जैसे कि 300, यहां तक ​​कि 3000 से कम), टी-टेस्ट अनिवार्य रूप से z- टेस्ट के समान ही होता है। यही है, टी-टेस्ट केंद्रीय सीमा प्रमेय के एक आवेदन से ज्यादा कुछ नहीं है, जो कहता है कि आपके प्रत्येक दो समूहों के लिए एमईएन लगभग सामान्य रूप से वितरित किया जाता है (भले ही दोनों साधनों के अंतर्निहित अवलोकन सामान्य रूप से होने से बहुत दूर हों। वितरित!)। यह भी कारण है कि आपकी विशिष्ट टी-टेबल 1000 से अधिक n के लिए मान दिखाने के लिए परेशान नहीं करती है (उदाहरण के लिए, यह टी-टेबल) । इस प्रकार, मुझे यह देखकर आश्चर्य नहीं हुआ कि आपको इस तरह के अच्छे परिणाम मिल रहे हैं।

संपादित करें: मुझे लगता है कि तिरछापन की चरमता और इसके महत्व को कम करके आंका गया है। जबकि ऊपर मेरी बात कम विषम परिस्थितियों में योग्यता रखती है, प्रश्न के उत्तर में व्हूबेर बेहतर समग्र है।


2
जब तिरछापन चरम पर होता है - जैसा कि उद्धृत आँकड़ों के अनुसार होता है - हमारे पास कोई आश्वासन नहीं है कि 300 या 3000 के नमूने का नमूना वितरण सामान्य के पास कहीं भी होगा। यही वजह है कि ओपी हैरान है। आप यह कहते हैं कि आप आश्चर्यचकित नहीं हैं, लेकिन यह दूसरे के मुकाबले एक व्यक्ति के अंतर्ज्ञान के लिए नीचे आता है। इन आंकड़ों को प्रदर्शित करने के लिए आप किस उद्देश्य तर्क की आपूर्ति कर सकते हैं कि 300 (या 3000) टी-टेस्ट के लिए अच्छी तरह से काम करने के लिए एक बड़ा पर्याप्त नमूना है?
whuber

महान बिंदु। मैं मानता हूं, यदि डेटा पर्याप्त रूप से तिरछा है, तो मेरा तर्क विफल हो जाता है। तो मेरे लिए सवाल यह है कि वास्तव में डेटा कितना तिरछा है, और आवश्यक नमूना आकार के लिए तिरछाता से संबंधित एक औपचारिक परिणाम है।
zkurtz

1
मैंने उस प्रश्न का उत्तर पोस्ट किया है। हम जानते हैं (कम से कम लगभग) सवाल में सारांश आंकड़ों के आधार पर डेटा को कैसे तिरछा किया गया है। यह तिरछा इतना मजबूत है कि प्रति समूह न तो 300, न ही 3000, और न ही 30,000 टिप्पणियों का अर्थ "लगभग बिल्कुल सामान्य" का नमूना वितरण होगा। आपको संभवतः लगभग 300,000 या उससे पहले की आवश्यकता है, इससे पहले कि दावा प्रशंसनीय हो जाए। इस प्रकार हमें एक अलग स्पष्टीकरण की तलाश करनी चाहिए कि दोनों परीक्षण क्यों सहमत हैं। मेरा यह है कि तो "अच्छी तरह से व्यवहार किया जाता है" बल्कि इसके बजाय दोनों को अच्छी तरह से व्यवहार किया जाता है।
whuber

0

मुझे पता है कि यह जवाब देर से है। हालांकि, मुझे स्वास्थ्य सेवाओं के अनुसंधान में पीएचडी मिल रही है, इसलिए मैं स्वास्थ्य सेवा डेटा के साथ बहुत काम करता हूं, जिसमें लागत डेटा भी शामिल है।

मुझे नहीं पता कि ओपी के पास क्या डेटा था। यदि यह क्रॉस-सेक्शनल डेटा थे, तो संभावना है कि यह उचित रूप से आईआईडी था। स्वतंत्रता का अर्थ है कि प्रत्येक इकाई, इसलिए प्रत्येक व्यक्ति, स्वतंत्र है। यह बहुत ही उचित है। जैसा कि समान रूप से वितरित किया जाता है, डेटा को सभी से आ रहा है, जैसे कि लॉग इन लिंक के साथ एक सामान्यीकृत रैखिक मॉडल में एक गामा वितरण मॉडल किया जा सकता है। यह वही है जो लोग आमतौर पर व्यवहार में करते हैं। या यदि आप कल्पना करना चाहते हैं, तो संभवतः बाधा मॉडल (अर्थमिति में लोकप्रिय) हैं जो अतिरिक्त 0s से निपटते हैं। जो, वैसे, स्वास्थ्य देखभाल खर्च में बहुत आम हैं। ओपी तकनीकी रूप से सही है कि डेटा को अनिवार्य रूप से समान रूप से वितरित नहीं किया जाता है, उदाहरण के लिए माध्य और विचरण उम्र के साथ बदल जाएगा, लेकिन यह कई प्रतिगमन मॉडल में एक व्यावहारिक धारणा है।

यदि प्रत्येक व्यक्ति एक वर्ष से अधिक समय तक डेटासेट में था, तो डेटा IID नहीं होगा। उसके लिए और अधिक जटिल मॉडल उपलब्ध हैं। उनमें से एक अपेक्षाकृत सरल शायद समीकरणों, गामा वितरण और लॉग लिंक को फिर से सामान्यीकृत किया जाएगा, एक विनिमेय कामकाजी सहसंबंध मान लेंगे। या, अगर ये डेटा सार्वजनिक रूप से उपलब्ध सर्वेक्षण डेटा से हैं, तो नमूना होने की समान संभावना नहीं है - उन सर्वेक्षणों में से प्रत्येक में प्रत्येक घर में कई लोगों का साक्षात्कार होता है, और वे आबादी को स्तरीकृत करते हैं और कुछ समूहों (जैसे नस्लीय अल्पसंख्यकों) की निगरानी करते हैं। उपयोगकर्ता को इसके लिए सही करना होगा।

मैं टी-परीक्षणों का उपयोग नहीं करता, विशेष रूप से अवलोकन डेटा के लिए नहीं। बहुत सारे कन्फ़्यूज़न हैं, इसलिए आप उनके लिए एक (सामान्यीकृत) रैखिक मॉडल में समायोजित करना चाहेंगे। इसलिए, मैं विशेष रूप से टी-टेस्ट से संबंधित प्रश्नों पर टिप्पणी नहीं कर सकता।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.