यह आपके भूखंड के उद्देश्य पर स्पष्ट होने के लायक है। सामान्य तौर पर, दो अलग-अलग प्रकार के लक्ष्य होते हैं: डेटा विश्लेषण प्रक्रिया को आप जो धारणा बना रहे हैं, उसका आकलन करने के लिए आप अपने लिए प्लॉट बना सकते हैं, या दूसरों को परिणाम देने के लिए प्लॉट बना सकते हैं। ये समान नहीं हैं; उदाहरण के लिए, आपके प्लॉट / विश्लेषण के कई दर्शक / पाठक सांख्यिकीय रूप से अपरिष्कृत हो सकते हैं, और टी-टेस्ट में समान संस्करण और इसकी भूमिका के विचार से परिचित नहीं हो सकते हैं। आप चाहते हैं कि आपका प्लॉट आपके डेटा के बारे में महत्वपूर्ण जानकारी को उन जैसे उपभोक्ताओं तक भी पहुँचाए। वे स्पष्ट रूप से विश्वास कर रहे हैं कि आपने चीजों को सही ढंग से किया है। आपके प्रश्न सेटअप से, मैं आपको बाद के प्रकार के बाद इकट्ठा करता हूं।
वास्तविक रूप से, टी-टेस्ट 1 के परिणामों को दूसरों को बताने के लिए सबसे आम और स्वीकृत प्लॉट (अलग सेट करें कि क्या यह वास्तव में सबसे उपयुक्त है) मानक त्रुटि सलाखों के साथ साधनों का एक बार चार्ट है। यह टी-टेस्ट से बहुत अच्छी तरह से मेल खाता है कि एक टी-टेस्ट अपनी मानक त्रुटियों का उपयोग करके दो साधनों की तुलना करता है। जब आपके पास दो स्वतंत्र समूह होते हैं, तो यह एक ऐसी तस्वीर निकलेगा, जो सहज ज्ञान युक्त, यहां तक कि सांख्यिकीय रूप से अपरिष्कृत के लिए भी है, और (डेटा के इच्छुक) लोग "तुरंत देख सकते हैं कि वे संभवतः दो अलग-अलग आबादी से हैं"। यहाँ @ टिम के डेटा का उपयोग करके एक सरल उदाहरण दिया गया है:
nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
smokers <- c(16,20,14,21,20,18,13,15,17,21)
m = c(mean(nonsmokers), mean(smokers))
names(m) = c("nonsmokers", "smokers")
se = c(sd(nonsmokers)/sqrt(length(nonsmokers)),
sd(smokers)/sqrt(length(smokers)))
windows()
bp = barplot(m, ylim=c(16, 21), xpd=FALSE)
box()
arrows(x0=bp, y0=m-se, y1=m+se, code=3, angle=90)
कहा कि, डेटा विज़ुअलाइज़ेशन विशेषज्ञ आमतौर पर इन भूखंडों का तिरस्कार करते हैं। वे अक्सर "डायनामाइट प्लॉट" के रूप में व्युत्पन्न होते हैं (सीएफ, डायनामाइट प्लॉट खराब क्यों होते हैं )। विशेष रूप से, यदि आपके पास केवल कुछ डेटा हैं, तो अक्सर यह अनुशंसा की जाती है कि आप डेटा को स्वयं दिखाएं । यदि अंक ओवरलैप करते हैं, तो आप उन्हें क्षैतिज रूप से घिस सकते हैं (थोड़ी मात्रा में यादृच्छिक शोर जोड़ सकते हैं) ताकि वे अब ओवरलैप न हों। क्योंकि एक टी-टेस्ट मूल रूप से साधन और मानक त्रुटियों के बारे में है, ऐसे भूखंड पर साधन और मानक त्रुटियों को ओवरले करना सबसे अच्छा है। यहाँ एक अलग संस्करण है:
set.seed(4643)
plot(jitter(rep(c(0,1), each=10)), c(nonsmokers, smokers), axes=FALSE,
xlim=c(-.5, 1.5), xlab="", ylab="")
box()
axis(side=1, at=0:1, labels=c("nonsmokers", "smokers"))
axis(side=2, at=seq(14,22,2))
points(c(0,1), m, pch=15, col="red")
arrows(x0=c(0,1), y0=m-se, y1=m+se, code=3, angle=90, length=.15)
यदि आपके पास बहुत अधिक डेटा है, तो डिस्ट्रीब्यूशन का त्वरित अवलोकन प्राप्त करने के लिए बॉक्सप्लाट्स एक बेहतर विकल्प हो सकता है, और आप साधन और एसईएस को भी ओवरले कर सकते हैं।
data(randu)
x1 = qnorm(randu[,1])
x2 = qnorm(randu[,2])
m = c(mean(x1), mean(x2))
se = c(sd(x1)/sqrt(length(x1)), sd(x2)/sqrt(length(x2)))
boxplot(x1, x2)
points(c(1,2), m, pch=15, col="red")
arrows(x0=1:2, y0=m-(1.96*se), y1=m+(1.96*se), code=3, angle=90, length=.1)
# note that I plotted 95% CIs so that they will be easier to see
डेटा के सरल प्लॉट, और बॉक्सप्लाट्स, पर्याप्त रूप से सरल हैं कि ज्यादातर लोग उन्हें समझ पाएंगे, भले ही वे बहुत सांख्यिकीय रूप से समझदार न हों। हालांकि, ध्यान रखें कि इनमें से कोई भी आपके समूहों की तुलना करने के लिए एक टी-टेस्ट का उपयोग करने की वैधता का आकलन करना आसान बनाता है। उन लक्ष्यों को विभिन्न प्रकार के भूखंडों द्वारा सर्वोत्तम रूप से परोसा जाता है।
1. ध्यान दें कि यह चर्चा एक स्वतंत्र नमूने टी-टेस्ट को मानती है। इन भूखंडों का उपयोग एक भरोसेमंद नमूने टी-टेस्ट के साथ किया जा सकता है, लेकिन उस संदर्भ में भ्रामक भी हो सकता है (सीएफ।, क्या भीतर-विषयों के अध्ययन में साधनों के लिए त्रुटि सलाखों का उपयोग करना गलत है? )।