स्वतंत्र दो नमूना टी-टेस्ट की कल्पना कैसे करें?


11

एक स्वतंत्र दो नमूना टी-परीक्षण के परिणामों की कल्पना करने के सबसे स्वीकृत तरीके क्या हैं? क्या एक संख्यात्मक तालिका अधिक बार उपयोग की जाती है या किसी प्रकार की साजिश है? लक्ष्य एक आकस्मिक पर्यवेक्षक के लिए आकृति को देखने और तुरंत देखने के लिए है कि वे संभवतः दो अलग-अलग आबादी से हैं।


"स्वीकृत" किसके द्वारा, किस संदर्भ में? "अधिक बार उपयोग किया जाता है" कहाँ?
Glen_b -Reinstate मोनिका

जवाबों:


18

यह आपके भूखंड के उद्देश्य पर स्पष्ट होने के लायक है। सामान्य तौर पर, दो अलग-अलग प्रकार के लक्ष्य होते हैं: डेटा विश्लेषण प्रक्रिया को आप जो धारणा बना रहे हैं, उसका आकलन करने के लिए आप अपने लिए प्लॉट बना सकते हैं, या दूसरों को परिणाम देने के लिए प्लॉट बना सकते हैं। ये समान नहीं हैं; उदाहरण के लिए, आपके प्लॉट / विश्लेषण के कई दर्शक / पाठक सांख्यिकीय रूप से अपरिष्कृत हो सकते हैं, और टी-टेस्ट में समान संस्करण और इसकी भूमिका के विचार से परिचित नहीं हो सकते हैं। आप चाहते हैं कि आपका प्लॉट आपके डेटा के बारे में महत्वपूर्ण जानकारी को उन जैसे उपभोक्ताओं तक भी पहुँचाए। वे स्पष्ट रूप से विश्वास कर रहे हैं कि आपने चीजों को सही ढंग से किया है। आपके प्रश्न सेटअप से, मैं आपको बाद के प्रकार के बाद इकट्ठा करता हूं।

वास्तविक रूप से, टी-टेस्ट 1 के परिणामों को दूसरों को बताने के लिए सबसे आम और स्वीकृत प्लॉट (अलग सेट करें कि क्या यह वास्तव में सबसे उपयुक्त है) मानक त्रुटि सलाखों के साथ साधनों का एक बार चार्ट है। यह टी-टेस्ट से बहुत अच्छी तरह से मेल खाता है कि एक टी-टेस्ट अपनी मानक त्रुटियों का उपयोग करके दो साधनों की तुलना करता है। जब आपके पास दो स्वतंत्र समूह होते हैं, तो यह एक ऐसी तस्वीर निकलेगा, जो सहज ज्ञान युक्त, यहां तक ​​कि सांख्यिकीय रूप से अपरिष्कृत के लिए भी है, और (डेटा के इच्छुक) लोग "तुरंत देख सकते हैं कि वे संभवतः दो अलग-अलग आबादी से हैं"। यहाँ @ टिम के डेटा का उपयोग करके एक सरल उदाहरण दिया गया है:

nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
smokers <- c(16,20,14,21,20,18,13,15,17,21)
m        = c(mean(nonsmokers), mean(smokers))
names(m) = c("nonsmokers", "smokers")
se       = c(sd(nonsmokers)/sqrt(length(nonsmokers)), 
             sd(smokers)/sqrt(length(smokers)))
windows()
  bp = barplot(m, ylim=c(16, 21), xpd=FALSE)
  box()
  arrows(x0=bp, y0=m-se, y1=m+se, code=3, angle=90)

यहाँ छवि विवरण दर्ज करें

कहा कि, डेटा विज़ुअलाइज़ेशन विशेषज्ञ आमतौर पर इन भूखंडों का तिरस्कार करते हैं। वे अक्सर "डायनामाइट प्लॉट" के रूप में व्युत्पन्न होते हैं (सीएफ, डायनामाइट प्लॉट खराब क्यों होते हैं )। विशेष रूप से, यदि आपके पास केवल कुछ डेटा हैं, तो अक्सर यह अनुशंसा की जाती है कि आप डेटा को स्वयं दिखाएं । यदि अंक ओवरलैप करते हैं, तो आप उन्हें क्षैतिज रूप से घिस सकते हैं (थोड़ी मात्रा में यादृच्छिक शोर जोड़ सकते हैं) ताकि वे अब ओवरलैप न हों। क्योंकि एक टी-टेस्ट मूल रूप से साधन और मानक त्रुटियों के बारे में है, ऐसे भूखंड पर साधन और मानक त्रुटियों को ओवरले करना सबसे अच्छा है। यहाँ एक अलग संस्करण है:

set.seed(4643)
plot(jitter(rep(c(0,1), each=10)), c(nonsmokers, smokers), axes=FALSE, 
     xlim=c(-.5, 1.5), xlab="", ylab="")
box()
axis(side=1, at=0:1, labels=c("nonsmokers", "smokers"))
axis(side=2, at=seq(14,22,2))
points(c(0,1), m, pch=15, col="red")
arrows(x0=c(0,1), y0=m-se, y1=m+se, code=3, angle=90, length=.15)

यहाँ छवि विवरण दर्ज करें

यदि आपके पास बहुत अधिक डेटा है, तो डिस्ट्रीब्यूशन का त्वरित अवलोकन प्राप्त करने के लिए बॉक्सप्लाट्स एक बेहतर विकल्प हो सकता है, और आप साधन और एसईएस को भी ओवरले कर सकते हैं।

data(randu)
x1 = qnorm(randu[,1])
x2 = qnorm(randu[,2])
m  = c(mean(x1), mean(x2))
se = c(sd(x1)/sqrt(length(x1)), sd(x2)/sqrt(length(x2)))
boxplot(x1, x2)
points(c(1,2), m, pch=15, col="red")
arrows(x0=1:2, y0=m-(1.96*se), y1=m+(1.96*se), code=3, angle=90, length=.1)
# note that I plotted 95% CIs so that they will be easier to see

यहाँ छवि विवरण दर्ज करें

डेटा के सरल प्लॉट, और बॉक्सप्लाट्स, पर्याप्त रूप से सरल हैं कि ज्यादातर लोग उन्हें समझ पाएंगे, भले ही वे बहुत सांख्यिकीय रूप से समझदार न हों। हालांकि, ध्यान रखें कि इनमें से कोई भी आपके समूहों की तुलना करने के लिए एक टी-टेस्ट का उपयोग करने की वैधता का आकलन करना आसान बनाता है। उन लक्ष्यों को विभिन्न प्रकार के भूखंडों द्वारा सर्वोत्तम रूप से परोसा जाता है।

1. ध्यान दें कि यह चर्चा एक स्वतंत्र नमूने टी-टेस्ट को मानती है। इन भूखंडों का उपयोग एक भरोसेमंद नमूने टी-टेस्ट के साथ किया जा सकता है, लेकिन उस संदर्भ में भ्रामक भी हो सकता है (सीएफ।, क्या भीतर-विषयों के अध्ययन में साधनों के लिए त्रुटि सलाखों का उपयोग करना गलत है? )।


बार + सीआई प्लॉट का उपयोग करने के साथ एक बड़ी समस्या यह है कि कभी-कभी अंतर सांख्यिकीय रूप से महत्वपूर्ण होता है, लेकिन सीआई ओवरलैप करते हैं । यह देखते हुए कि बार + सीआई प्लॉट एक सामान्यवादी दर्शकों के लिए अपील करने की कोशिश करता है, हम वास्तव में इस अतिरिक्त शिकन को समझाने में समय बिताना नहीं चाहते हैं।
हाइजेनबर्ग

@ हाइजेनबर्ग, मैं इससे अवगत हूं। सभी अवसरों और उद्देश्यों के लिए कोई एकल, सही साजिश नहीं है। मैंने CI का भी उल्लेख नहीं किया, केवल SE (हालाँकि यह df के आधार पर कुछ CI के बराबर होगा)। आमतौर पर आकृति कैप्शन में महत्व का उल्लेख किया जाता है, और पाठ में चर्चा की जाती है। यदि आप चाहते हैं कि यह प्लॉट में ही स्पष्ट रूप से प्रदर्शित हो, तो आप कोष्ठक और पी-मान (जैसे, यहां ) जोड़ सकते हैं ।
गूँज - मोनिका

अगर स्वर आक्रामक लगे तो मेरी माफी। मैं अभी थोड़ा संभल रहा हूं कि अंत में आगे की व्याख्या किए बिना किसी सामान्य दर्शक दर्शकों को टी-टेस्ट की कल्पना करने का कोई सुरुचिपूर्ण तरीका नहीं है। यह प्लॉटिंग के लिए नीचे आ सकता है: समूह के साथ 2 बार प्लॉट दिखाने का मतलब एसई के साथ और तीसरे प्लॉट में अंतर और इसका सीआई ( आपके लिंक की तरह ) दिखा । लेकिन इस तरह के दृश्य निरर्थक जानकारी (समूहों का अर्थ है और साधनों में अंतर) को दर्शाते हैं, जो दर्शकों को भ्रमित भी कर सकते हैं।
हाइजेनबर्ग

@ हाइजेनबर्ग, मैं अपने अन्य उत्तर से कथानक का उपयोग नहीं करूंगा जब तक कि मैं भीतर-रोगियों के टी-टेस्ट को प्रदर्शित करने की कोशिश नहीं कर रहा हूं। मुझे लगता है कि टी-टेस्ट के लिए 2 बार w / SE को प्रस्तुत करना संभवतः ठीक है, w / एक साधारण आंकड़ा कैप्शन। यदि आपको भूखंड में महत्व की आवश्यकता है , तो आप कोष्ठक या ऐसा कुछ जोड़ सकते हैं (मुझे आमतौर पर यह अनावश्यक लगता है)।
गंग -

14

कल्पना करने के लिए सबसे अधिक इस्तेमाल किया जाने वाला तरीका टी-टेस्ट-जैसे तुलना बॉक्सप्लाट्स का उपयोग करना है । नीचे मैं इस साइट से "लघु अवधि स्मृति को मापने वाले कार्य पर प्रदर्शन और मारिजुआना के बीच संबंध और प्रदर्शन में कमी" का वर्णन करने वाले डेटासेट का उपयोग करके उदाहरण प्रदान करता हूं ।

> nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
> smokers <- c(16,20,14,21,20,18,13,15,17,21)
> 
> t.test(nonsmokers, smokers)

    Welch Two Sample t-test

data:  nonsmokers and smokers
t = 2.2573, df = 16.376, p-value = 0.03798
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.1628205 5.0371795
sample estimates:
mean of x mean of y 
     20.1      17.5 

यहाँ छवि विवरण दर्ज करें

वास्तव में, बॉक्सप्लॉट्स आमतौर पर "अनौपचारिक" परिकल्पना परीक्षण के लिए उपयोग किए जाते हैं, उदाहरण के लिए 1988 के पेपर में योओ बेंजामिनी द्वारा वर्णित किया गया था : बॉक्सिंग का बॉक्स खोलना

नियमित रूप से बॉक्सप्लॉट को बैच के मंझले के लिए एक अनुमानित आत्मविश्वास अंतराल द्वारा पूरक किया जाता है, जिसे बॉक्स के किनारों से निकाले गए वेजेज की एक जोड़ी के रूप में दिखाया जाता है। ये आत्मविश्वास अंतराल इस तरह से निर्मित किए जाते हैं कि जब अलग-अलग बॉक्सप्लेट के दो पायदान ओवरलैप नहीं करते हैं तो उनके मध्यस्थ काफी भिन्न होते हैं। (...) चूँकि विश्वास अंतराल के लिए सूत्र एक स्थिर समय है, जो बैच आकार के वर्गमूल द्वारा विभाजित इंटरक्वेर्टाइल रेंज है, बाद वाले को वेजेज की लंबाई से बॉक्स की लंबाई के सापेक्ष माना जा सकता है।

यह भी देखें: बॉक्स प्लॉट में केवल सारांश डेटा का उपयोग करके टी-टेस्ट

यह साजिश सीधे मात्रा में शामिल नहीं दिखाई देती है टी-टेस्ट , जैसा कि @NickCox ने देखा। यदि आप विश्वास अंतराल के साथ साधनों की सीधी तुलना चाहते हैं तो आप चिह्नित विश्वास अंतरालों के साथ बार प्लॉट का उपयोग कर सकते हैं । साधन और विश्वास अंतराल का उपयोग करना भी आपको परिकल्पना परीक्षण ( यहां या यहां देखें ) का संचालन करने में सक्षम बनाता है ।

यहाँ छवि विवरण दर्ज करें

जैसा कि आप इस धागे के नीचे अन्य पोस्ट और टिप्पणियों से देख सकते हैं, दोनों बॉक्सप्लेट और डायनामाइट प्लॉट कुछ विवादास्पद विकल्प हैं, इसलिए मैं आपको एक और विकल्प देता हूं जिसका अभी तक उल्लेख नहीं किया गया था। सबसे पहले, याद है किटी-टेस्ट और रिग्रेशन संबंधित हैं । आप साजिश कर सकते हैंटी-टेस्ट-लाइक के साथ जुड़े हुए एररबर्स (आत्मविश्वास अंतराल) के साथ दो अंकों की तुलना। लाइन का ढलान प्रतिगमन ढलान के आनुपातिक है यदि आपने इसके बजाय रैखिक प्रतिगमन का उपयोग किया हैटी-इस स्थिति में सबसे बेहतर। इस तरह के कथानक का प्रमुख लाभ यह है कि यह आपको रेखा के ढलान को देखकर आसानी से अंतर के अंतर का पता लगाने में सक्षम बनाता है। यह नुकसान हो सकता है कि यह सुझाव दे सकता है कि साधन के बीच कुछ "निरंतरता" है (यानी कि आपने नमूने जोड़े थे)।

यहाँ छवि विवरण दर्ज करें

बॉक्सप्लॉट्स का आमतौर पर अधिक उपयोग किया जाता है क्योंकि वे कल्पना किए गए चर के वितरण के बारे में अधिक जानकारी प्रदान करते हैं (आत्मविश्वास अंतराल के साथ मतलब की तुलना)। वे जानकारी को डुप्लिकेट करने के बजाय पूरक भी करते हैंटी-अधिकतम और प्लॉट के इस तरह के उपयोग को ज्यादातर स्टाइल गाइड द्वारा प्रोत्साहित किया जाता है, उदाहरण के लिए अमेरिकन साइकोलॉजिकल एसोसिएशन का प्रकाशन मैनुअल :

पहला विचार कागज के पाठ में उस आकृति का सूचना मूल्य है जिसमें उसे प्रकट होना है। यदि आंकड़ा कागज की समझ में दृढ़ता से नहीं जुड़ता है या कागज के अन्य तत्वों को डुप्लिकेट करता है, तो इसे शामिल नहीं किया जाना चाहिए।


4
यह वास्तव में आम है, यहां तक ​​कि उन ग्रंथों में भी जो टी-टेस्ट और एनोवा पर चर्चा करते हैं, लेकिन यह एक असाधारण पसंद है। बॉक्स प्लॉट सीधे टी-टेस्ट में शामिल किसी भी मात्रा को नहीं दिखाता है। न्यूनतम रूप से, एक उचित भूखंड को साधन दिखाना चाहिए और बॉक्स प्लॉट की तुलना में वितरण पर अधिक विवरण देना चाहिए। परीक्षण की व्याख्या करने में पूंछ के भीतर का विस्तार अक्सर महत्वपूर्ण होता है।
निक कॉक्स

OK @NickCox, डेटासेट सिर्फ विज़ुअलाइज़ेशन के लिए चुना गया था, लेकिन अब मैंने इसे और अधिक उपयुक्त उदाहरण में बदल दिया।
टिम

3
बार प्लॉट (उर्फ "डायनामाइट प्लॉट") में एक उच्च स्याही है: सूचना अनुपात।
फ्रैंक हरेल

एपीए मैनुअल (संदर्भ पर जांच नहीं की गई है) से उद्धरण अच्छी सामान्य सलाह है, लेकिन इस संदर्भ में आंशिक रूप से प्रासंगिक बॉक्स प्लॉट का उपयोग करने के लिए सीधे तर्क में नहीं है। मैं सहमत हूं, स्वाभाविक रूप से, कि बॉक्सप्लाट्स बहुत उपयोगी और अक्सर पूरक हो सकते हैं, और यह कि वे बहुत बार उपयोग किए जाते हैं, लेकिन मेरी पहली बात बनी हुई है।
निक कॉक्स

@NickCox मैं यह नहीं कह सकता कि मैं आपसे असहमत हूं, लेकिन मैं अभी भी अतिरिक्त जानकारी प्रदान करने के लिए बॉक्सप्लेट पर विचार करूंगा और टी-टेस्ट के परिणाम की नकल नहीं करूंगा, भले ही यह सीधे टी-टेस्ट से संबंधित न हो। यह सरल, स्पष्ट और ज्ञानवर्धक है।
टिम

8

यह ज्यादातर @Tim और @gung द्वारा सहायक उत्तरों पर भिन्नता है, लेकिन ग्राफ़ को टिप्पणी में फिट नहीं किया जा सकता है।

छोटे लेकिन संभवतः उपयोगी बिंदु:

  1. एक स्ट्रिप प्लॉट या डॉट प्लॉट जैसा कि @gung द्वारा स्पष्ट किया गया है यदि संबंध हैं, तो उदाहरण डेटा में हैं। बिंदुओं को स्टैक किया जा सकता है या घबराना, या जैसा कि नीचे दिए गए उदाहरण में आप एक हाइब्रिड क्वांटाइल-बॉक्स प्लॉट का उपयोग कर सकते हैं, जैसा कि इमानुएल परजन द्वारा सुझाया गया है (सबसे सुलभ संदर्भ शायद 1979 है। नॉनपरमेट्रिक सांख्यिकीय डेटा मॉडलिंग। जर्नल, अमेरिकन स्टैटिस्टिकल74: 105-121)। इसकी अन्य खूबियां भी हैं, यह रेखांकित करते हुए कि यदि आधा डेटा बॉक्स के अंदर है, तो आधा भी बाहर है, और अनिवार्य रूप से वितरण के सभी विवरण दिखाने में। जहां सिर्फ दो समूह हैं, जैसा कि इस संदर्भ में है, किसी भी अधिक पारंपरिक प्रकार के बॉक्स प्लॉट एक न्यूनतम, वास्तव में कंकाल, प्रदर्शन हो सकते हैं। कुछ लोग इसे एक गुण के रूप में लेंगे, लेकिन अधिक विस्तार दिखाने की गुंजाइश है। इसका तर्क यह है कि एक बॉक्स प्लॉट विशेष बिंदुओं को चिह्नित करता है, विशेष रूप से जो लगभग 1.5 IQR से अधिक निकट चतुर्थक है, उपयोगकर्ता के लिए एक स्पष्ट चेतावनी है: एक टी-टेस्ट के साथ देखें, क्योंकि पूंछ में ऐसे बिंदु हो सकते हैं जो आपको होने चाहिए के बारे में चिंता।

  2. आप स्वाभाविक रूप से एक बॉक्स प्लॉट के साधनों का एक संकेत जोड़ सकते हैं, जो अक्सर किया जाता है। एक अलग मार्कर या बिंदु चिन्ह जोड़ना आम है। यहाँ हम रेफरेंस लाइन्स चुनते हैं।

यहाँ छवि विवरण दर्ज करें

धूम्रपान करने वालों और धूम्रपान न करने वालों के लिए क्वांटाइल-बॉक्स प्लॉट। बक्से मंझला और चौकड़ी दिखाते हैं। ब्लू शो में क्षैतिज रेखाओं का मतलब है।

ध्यान दें। स्टैटा में ग्राफ बनाया गया था। यहाँ रुचि रखने वालों के लिए कोड है। stripplotके साथ पहले स्थापित होना चाहिए ssc inst stripplot

clear 
mat nonsmokers = (18,22,21,17,20,17,23,20,22,21)
mat smokers = (16,20,14,21,20,18,13,15,17,21)
local n = max(colsof(nonsmokers), colsof(smokers)) 
set obs `n' 
gen smokers = smokers[1, _n] 
gen nonsmokers = nonsmokers[1, _n] 
stripplot smokers nonsmokers, vertical cumul centre xla(, noticks) ///
xsc(ra(0.6 2.4)) refline(lcolor(blue)) height(0.5) box ///
ytitle(digit span score) yla(, ang(h)) mcolor(red) msize(medlarge) 

संपादित करें। @ फ्रेंक हैरेल के उत्तर के जवाब में यह आगे का विचार दो सामान्य संभाव्यता भूखंडों (वास्तव में क्वांटाइल-क्वांटाइल प्लॉट्स) को सुपरमिट करता है। क्षैतिज रेखाएं दर्शाती हैं। कुछ प्रत्येक समूह के लिए एकदम सही फिट इंगित करने वाली रेखाएँ जोड़ना चाहेंगे, जैसे (0, इसका मतलब) और (1, यह मतलब है + इसके एसडी) या मजबूत-प्रतिरोधी विकल्प।

यहाँ छवि विवरण दर्ज करें


1
+1, मैं डेटा को परेशान करने के लिए अर्थ रखता हूं, लेकिन मैं अभी तक इसे प्राप्त नहीं कर पाया हूं। मैं और अधिक उन्नत भूखंडों को जोड़ने के बारे में सोच रहा था, जिसमें क्वांटाइल-बॉक्स भूखंड, वायलिन भूखंड और क्यूक-भूखंड शामिल हैं, लेकिन मैंने अंततः कभी अधिक भूखंडों को सूचीबद्ध करने के विचार को छोड़ दिया।
गुंग - को पुनः स्थापित मोनिका

@ गुंग मेला काफी; दुर्भाग्य से या सौभाग्य से, धागा आसानी से दो वितरणों की तुलना करने के तरीके में आसानी से जोड़ सकता है। अन्य डेटा उदाहरण के लिए, हिस्टोग्राम एक गंभीर प्रतियोगी हो सकता है, आदि
निक कॉक्स

5

परिणामों को प्रस्तुत करने के अच्छे लक्ष्य के अलावा, कुछ विचार करने चाहिए कि कौन से ग्राफिक्स दो-नमूना समान भिन्नता की मान्यताओं की जांच करते हैंटी-इसके लिए उत्कृष्ट प्रदर्शन है। यह दो अनुभवजन्य संचयी वितरण कार्यों का सामान्य उलटा कार्य होगा। परीक्षण मान्यताओं को पूरा करने के लिए इन दो वक्रों को समानांतर सीधी रेखाएं होनी चाहिए।


मैंने अपने स्वयं के उत्तर में विभिन्न संभावनाओं में से एक जोड़ा है।
निक कॉक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.