मतलब, एसडी, न्यूनतम और अधिकतम के साथ सारांश आँकड़े प्लॉट करना?


10

मैं एक अर्थशास्त्र पृष्ठभूमि से हूं और आमतौर पर अनुशासन में चर के सारांश आंकड़े एक तालिका में बताए जाते हैं। हालांकि, मैं उन्हें प्लॉट करना चाहता हूं।

मैं एक बॉक्स प्लॉट को संशोधित कर सकता था ताकि यह औसत, मानक विचलन, न्यूनतम और अधिकतम प्रदर्शित करने की अनुमति दे सके, लेकिन मैं ऐसा नहीं करना चाहता क्योंकि बॉक्स प्लॉट पारंपरिक रूप से मेडियन और Q1 और Q3 प्रदर्शित करने के लिए उपयोग किए जाते हैं।

मेरे सभी चरों के अलग-अलग पैमाने हैं। यह बहुत अच्छा होगा यदि कोई व्यक्ति एक सार्थक तरीका सुझा सकता है जिसके द्वारा मैं इन सारांश आँकड़ों की साजिश कर सकता हूँ। मैं आर या स्टाटा के साथ काम कर सकता हूं।


1
सूची में आपका स्वागत है। यदि आप Rकमांड्स के बारे में पूछ रहे हैं, तो यह प्रश्न यहां ऑफ टॉपिक है। लेकिन ऐसा लगता है कि आप मुख्य रूप से इस बारे में पूछ रहे हैं कि एक अच्छा प्लॉट कैसा दिखेगा और दूसरा यह कि इसे कैसे बनाया जाए। यदि हां, तो मैं आपके शीर्षक से "आर के साथ" हटाने का सुझाव देता हूं, और यह बताते हुए कि शरीर में, आपके पास Rउपलब्ध है।
पीटर Flom

जवाबों:


16

एक कारण है कि टुकी का बॉक्सप्लेट सार्वभौमिक है, इसे विभिन्न वितरणों से प्राप्त डेटा पर लागू किया जा सकता है, गॉसियन से पोइसन, आदि के लिए, मेडियन, एमएडी (औसत निरपेक्ष विचलन) या आईक्यूआर (इंटरक्वेस्टाइल रेंज) जब डेटा विचलन से अधिक मजबूत उपाय होते हैं। सामान्य। हालांकि, माध्य और SD आउटलेर्स के लिए अधिक प्रवण हैं, और उन्हें अंतर्निहित वितरण के संबंध में व्याख्या की जानी चाहिए। नीचे दिया गया समाधान सामान्य या लॉग-सामान्य डेटा के लिए अधिक उपयुक्त है। आप यहां मजबूत उपायों के चयन के माध्यम से ब्राउज़ कर सकते हैं , और यहां डब्ल्यूआरएस आर पैकेज का पता लगा सकते हैं

# simulating dataset
set.seed(12)
d1 <- rnorm(100, sd=30)
d2 <- rnorm(100, sd=10)
d <- data.frame(value=c(d1,d2), condition=rep(c("A","B"),each=100))

# function to produce summary statistics (mean and +/- sd), as required for ggplot2
data_summary <- function(x) {
   mu <- mean(x)
   sigma1 <- mu-sd(x)
   sigma2 <- mu+sd(x)
   return(c(y=mu,ymin=sigma1,ymax=sigma2))
}

# require(ggplot2)
ggplot(data=d, aes(x=condition, y=value, fill=condition)) + 
geom_crossbar(stat="summary", fun.y=data_summary, fun.ymax=max, fun.ymin=min)

इसके अतिरिक्त आप ऊपर + geom_jitter()या + geom_point()कोड जोड़कर कच्चे डेटा मानों की एक साथ कल्पना कर सकते हैं।


वायलिन भूखंड को इंगित करने के लिए @ रोलैंड का धन्यवाद । सारांश सांख्यिकीय के रूप में एक ही समय में संभाव्यता घनत्व की कल्पना करने में इसका फायदा है:

# require(ggplot2)
ggplot(data=d, aes(x=condition, y=value, fill=condition)) + 
geom_violin() + stat_summary(fun.data=data_summary)

दोनों उदाहरण नीचे दिए गए हैं।

यहां छवि विवरण दर्ज करें


2
मैं इस पर एक वायलिन साजिश पसंद करेंगे।
रोलैंड

1
विश्लेषण के उद्देश्य के आधार पर, माध्य और मानक विचलन वास्तव में आपकी आवश्यकता है। मुझे समझ में नहीं आ रहा है कि आर के सारांश.ऑटा.फ्रेम में विसंगति है। यह दिखाता है, लेकिन कोई एसडीएस। मैं कई स्थितियों के बारे में नहीं सोच सकता जहाँ साधन उपयोगी हैं लेकिन मानक विचलन भ्रामक हैं।
माइकल एम

वास्तव में, कभी-कभी आपको माध्य और एसडी को देखने की आवश्यकता होती है ताकि आप न्याय करें कि क्या वे उपयोगी हैं ....
निक कॉक्स

1
@TWL: यहाँ चर्चा करने के लिए विषय बहुत व्यापक है। लेकिन उदाहरण के लिए दवाओं के आर्थिक मूल्यांकन को लें: रोगी के लिए, शायद उपचार की अवधि जानना महत्वपूर्ण है, जबकि स्वास्थ्य बीमा कंपनी के लिए यह उपचार अवधि है क्योंकि उन्हें प्रत्येक रोगी के लिए इसका भुगतान करने की आवश्यकता होती है। एक जिज्ञासु तथ्य: घातांक वितरण के मामले में, माध्य +/- 1 मानक विचलन सभी द्रव्यमान का 68% कवर करता है, माध्य +/- 2 एसडीएस सभी द्रव्यमान का लगभग 95% कवर करता है। सामान्य के लिए के रूप में। (लेकिन यह एक मात्र मौका है;))
माइकल एम

1
सभी को धन्यवाद, मुझे प्रस्तावित वायलिन भूखंड पसंद हैं इसलिए उस विकल्प के साथ आगे
बढ़ेंगे

9

असंख्य संभावनाएँ हैं।

एक विकल्प मैंने देखा है जो बॉक्सप्लाट्स के साथ भ्रम से बचता है (यह मानते हुए कि आपके पास मध्यस्थ या मूल डेटा उपलब्ध है) एक बॉक्सप्लॉट की साजिश रचने और एक प्रतीक जोड़ना है जो माध्य को चिह्नित करता है (उम्मीद है कि यह स्पष्ट करने के लिए एक किंवदंती के साथ)। माचिस के लिए एक मार्कर जोड़ने वाले बॉक्सप्लॉट के इस संस्करण का उल्लेख किया गया है, उदाहरण के लिए फ्रिगेट एट अल (1989) [1]:

बॉक्सप्लॉट दिखाने वाले माध्य के रूप में चिह्नित हैं

बायां भूखंड एक माध्य मार्कर के रूप में + प्रतीक दिखाता है और दायां भूखंड किनारे पर एक त्रिकोण का उपयोग करता है, दाने और ट्रेसी के बीम-और-फुलक्रम भूखंड [2] से मतलब मार्कर को गोद लेता है।

यह एसओ पद और यह भी देखें

यदि आपके पास नहीं है (या वास्तव में दिखाना नहीं चाहते हैं) तो एक नए भूखंड की जरूरत होगी और फिर इसके लिए अच्छा होगा कि यह एक बॉक्सप्लॉट से अलग हो।

शायद कुछ इस तरह:

यहां छवि विवरण दर्ज करें

... जो अलग-अलग प्रतीकों का उपयोग करके प्रत्येक नमूने के लिए न्यूनतम, अधिकतम, औसत और माध्य प्लॉट करता है और फिर एक आयत, या शायद बेहतर, कुछ इस तरह खींचता है:±

यहां छवि विवरण दर्ज करें

... जो अलग-अलग प्रतीकों का उपयोग करके प्रत्येक नमूने के लिए न्यूनतम, अधिकतम, औसत और माध्य प्लॉट करता है और फिर एक रेखा खींचता है (वास्तव में वर्तमान में वास्तव में पहले की तरह एक आयत है, लेकिन संकीर्ण है; इसे ड्राइंग में बदल दिया जाना चाहिए; लाइन)±

यदि आपकी संख्या बहुत भिन्न है, लेकिन सभी सकारात्मक हैं, तो आप लॉग के साथ काम करने पर विचार कर सकते हैं, या आप अलग-अलग (लेकिन स्पष्ट रूप से चिह्नित) तराजू के साथ छोटे गुणक कर सकते हैं।

कोड (वर्तमान में विशेष रूप से 'अच्छा' कोड नहीं है, लेकिन फिलहाल यह केवल विचारों की खोज कर रहा है, यह अच्छा आर कोड लिखने पर एक ट्यूटोरियल नहीं है):

fivenum.ms=function(x) {r=range(x);m=mean(x);s=sd(x);c(r[1],m-s,m,m+s,r[2])}
eps=.015

plot(factor(c(1,2)),range(c(A,B)),type="n",border=0)
points((rep(c(1,2),each=5)),c(fivenum.ms(A),fivenum.ms(B)),col=rep(c(2,4),each=5),pch=rep(c(1,16,9,16,1),2),ylim=c(range(A,B)),cex=1.2,lwd=2,xlim=c(0.5,2.5),ylab="",xlab="")
rect(1-1.2*eps,fivenum.ms(A)[2],1+1.4*eps,fivenum.ms(A)[4],lwd=2,col=2,den=0)
rect(2-1.2*eps,fivenum.ms(B)[2],2+1.4*eps,fivenum.ms(B)[4],lwd=2,col=4,den=0)

plot(factor(c(1,2)),range(c(A,B)),type="n",border=0)
points((rep(c(1,2),each=5)),c(fivenum.ms(A),fivenum.ms(B)),col=rep(c(2,4),each=5),pch=rep(c(1,16,9,16,1),2),ylim=c(range(A,B)),cex=1.2,lwd=2,xlim=c(0.5,2.5),ylab="",xlab="")
rect(1-eps/9,fivenum.ms(A)[2],1+eps/3,fivenum.ms(A)[4],lwd=2,col=2,den=0)
rect(2-eps/9,fivenum.ms(B)[2],2+eps/3,fivenum.ms(B)[4],lwd=2,col=4,den=0)

[१] फ्रिगेज, एम।, डीसी होआग्लिन, और बी। इग्ल्विक्ज़ (१ ९ ge ९),
"बॉक्स प्लॉट के कुछ कार्यान्वयन।"
अमेरिकी सांख्यिकीविद् , 43 (फ़रवरी): 50-54।

[२] दून डीपी और आरएल ट्रेसी (२०००),
"बीम एंड फुलक्रम डिस्प्ले का उपयोग करके डेटा का अन्वेषण करें"
अमेरिकी सांख्यिकीविद् , ५४ (४): २– ९ -२ ९ ०, नवंबर

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.