आर में ग्राफिकल डेटा ओवरव्यू (सारांश) फ़ंक्शन


39

मुझे यकीन है कि मैं एक आर पैकेज में इस तरह के एक समारोह से पहले आया हूं, लेकिन व्यापक Googling के बाद मैं इसे कहीं भी नहीं ढूंढ सकता हूं। जिस फ़ंक्शन के बारे में मैं सोच रहा हूँ, उसे दिए गए एक चर के लिए एक चित्रमय सारांश, कुछ रेखांकन (एक हिस्टोग्राम और शायद एक बॉक्स और व्हिस्कर प्लॉट) के साथ आउटपुट का उत्पादन और कुछ पाठ जैसे विवरण, मतलब, एसडी, आदि।

मुझे पूरा यकीन है कि यह फ़ंक्शन बेस आर में शामिल नहीं था, लेकिन मैं अपने द्वारा उपयोग किए गए पैकेज को खोजने के लिए प्रतीत नहीं कर सकता।

क्या किसी को इस तरह के एक समारोह का पता है, और यदि हां, तो यह किस पैकेज में है?

जवाबों:


25

फ्रैंक हैरेल के Hmisc पैकेज में एनोटेशन के विकल्पों के साथ कुछ बुनियादी ग्राफिक्स हैं: summary.formula()संबंधित और संबंधित plotकार्यों को देखें। मुझे describe()फंक्शन भी पसंद है ।

अतिरिक्त जानकारी के लिए, Hmisc लाइब्रेरी या S-Plus और Hmisc और डिज़ाइन लाइब्रेरी का एक परिचय देखें

यहाँ कुछ ऑन लाइन मदद से लिए गए चित्रों (हैं bpplt, describeऔर plot(summary(...))): वैकल्पिक शब्द वैकल्पिक शब्द वैकल्पिक शब्द

कई अन्य उदाहरणों को आर ग्राफिकल मैनुअल पर ऑन-लाइन ब्राउज किया जा सकता है , हमीस्क देखें (और आरएमएस याद न करें )।


ये सभी कार्य Hmisc पैकेज में हैं, डिज़ाइन नहीं। इसे पोस्ट करने के लिए धन्यवाद।
फ्रैंक हरेल

तीन में से दो लिंक नीचे हैं।
दान दिया

15

मैं अत्यधिक कार्यक्षमता चार्ट की सिफारिश करता हूं । पैकेज में प्रदर्शन । यह एक एकल चार्ट में जानकारी की एक अद्भुत मात्रा को पैक करता है: प्रत्येक चर के लिए कर्नेल-घनत्व प्लॉट और हिस्टोग्राम, और प्रत्येक चर जोड़ी के लिए स्कैल्प्लोट्स, कम चिकनाई और सहसंबंध। यह मेरे पसंदीदा चित्रमय डेटा सारांश कार्यों में से एक है:

library(PerformanceAnalytics)
chart.Correlation(iris[,1:4],col=iris$Species)

मुझे यह चार्ट पसंद है!


2
+1, एफडब्ल्यूआईडब्ल्यू; कार पैकेज में स्कैटरप्लॉट.मेट्रिक्स आपको एक समान भूखंड (डब्ल्यू / कुछ मतभेद, जैसे, डब्ल्यू / ओ के आर एंड स्टार) देगा।
गंग - मोनिका

@ गुंग यह एक उत्कृष्ट कार्य है, टिप के लिए धन्यवाद।
ज़च

5

मैंने इस फ़ंक्शन को उपयोगी पाया है ... मूल लेखक का हैंडल श्वसन-संबंधी है

यहाँ आउटपुट का एक उदाहरण है

f_summary <- function(data_to_plot)
{
## univariate data summary
require(nortest)
#data <- as.numeric(scan ("data.txt")) #commenting out by mike
data <- na.omit(as.numeric(as.character(data_to_plot))) #added by mike
dataFull <- as.numeric(as.character(data_to_plot))

# first job is to save the graphics parameters currently used
def.par <- par(no.readonly = TRUE)
par("plt" = c(.2,.95,.2,.8))
layout( matrix(c(1,1,2,2,1,1,2,2,4,5,8,8,6,7,9,10,3,3,9,10), 5, 4, byrow = TRUE))

#histogram on the top left
h <- hist(data, breaks = "Sturges", plot = FALSE)
xfit<-seq(min(data),max(data),length=100)
yfit<-yfit<-dnorm(xfit,mean=mean(data),sd=sd(data))
yfit <- yfit*diff(h$mids[1:2])*length(data)
plot (h, axes = TRUE, main = paste(deparse(substitute(data_to_plot))), cex.main=2, xlab=NA)
lines(xfit, yfit, col="blue", lwd=2)
leg1 <- paste("mean = ", round(mean(data), digits = 4))
leg2 <- paste("sd = ", round(sd(data),digits = 4))
count <- paste("count = ", sum(!is.na(dataFull)))
missing <- paste("missing = ", sum(is.na(dataFull)))
legend(x = "topright", c(leg1,leg2,count,missing), bty = "n")

## normal qq plot
qqnorm(data, bty = "n", pch = 20)
qqline(data)
p <- ad.test(data)
leg <- paste("Anderson-Darling p = ", round(as.numeric(p[2]), digits = 4))
legend(x = "topleft", leg, bty = "n")

## boxplot (bottom left)
boxplot(data, horizontal = TRUE)
leg1 <- paste("median = ", round(median(data), digits = 4))
lq <- quantile(data, 0.25)
leg2 <- paste("25th percentile =  ", round(lq,digits = 4))
uq <- quantile(data, 0.75)
leg3 <- paste("75th percentile = ", round(uq,digits = 4))
legend(x = "top", leg1, bty = "n")
legend(x = "bottom", paste(leg2, leg3, sep = "; "), bty = "n")

## the various histograms with different bins
h2 <- hist(data,  breaks = (0:20 * (max(data) - min (data))/20)+min(data), plot = FALSE)
plot (h2, axes = TRUE, main = "20 bins")

h3 <- hist(data,  breaks = (0:10 * (max(data) - min (data))/10)+min(data), plot = FALSE)
plot (h3, axes = TRUE, main = "10 bins")

h4 <- hist(data,  breaks = (0:8 * (max(data) - min (data))/8)+min(data), plot = FALSE)
plot (h4, axes = TRUE, main = "8 bins")

h5 <- hist(data,  breaks = (0:6 * (max(data) - min (data))/6)+min(data), plot = FALSE)
plot (h5, axes = TRUE,main = "6 bins")

## the time series, ACF and PACF
plot (data, main = "Time series", pch = 20, ylab = paste(deparse(substitute(data_to_plot))))
acf(data, lag.max = 20)
pacf(data, lag.max = 20)

## reset the graphics display to default
par(def.par)

#original code for f_summary by respiratoryclub

}

2
मैंने अभी कोड को अपडेट किया है इसलिए यह मान्य / लापता एन की सूचना देगा, और फिर उन फ़ंक्शन के लापता मानों को छोड़ देता है जो लापता मानों से टूट गए थे।
माइकल बिशप

4

मुझे यकीन नहीं है कि यह वही है जो आप के बारे में सोच रहे थे, लेकिन आप फिटडिस्टरप्लस पैकेज की जांच कर सकते हैं । इसके बहुत सारे अच्छे कार्य हैं जो स्वचालित रूप से आपके वितरण के बारे में उपयोगी सारांश जानकारी उत्पन्न करते हैं, और उस जानकारी के कुछ प्लॉट बनाते हैं। यहाँ विगनेट से कुछ उदाहरण दिए गए हैं :

library(fitdistrplus)
data(groundbeef)
windows()              # or quartz() for mac
  plotdist(groundbeef$serving)  

यहाँ छवि विवरण दर्ज करें

windows()
> descdist(groundbeef$serving, boot=1000)
summary statistics
------
min:  10   max:  200 
median:  79 
mean:  73.64567 
estimated sd:  35.88487 
estimated skewness:  0.7352745 
estimated kurtosis:  3.551384 

यहाँ छवि विवरण दर्ज करें

fw = fitdist(groundbeef$serving, "weibull")

>summary(fw)
Fitting of the distribution ' weibull ' by maximum likelihood 
Parameters : 
       estimate Std. Error
shape  2.185885  0.1045755
scale 83.347679  2.5268626
Loglikelihood:  -1255.225   AIC:  2514.449   BIC:  2521.524 
Correlation matrix:
         shape    scale
shape 1.000000 0.321821
scale 0.321821 1.000000

fg  = fitdist(groundbeef$serving, "gamma")
fln = fitdist(groundbeef$serving, "lnorm")
windows()
  plot(fw)

यहाँ छवि विवरण दर्ज करें

windows()
  cdfcomp(list(fw,fln,fg), legendtext=c("Weibull","logNormal","gamma"), lwd=2,
          xlab="serving sizes (g)")

यहाँ छवि विवरण दर्ज करें

>gofstat(fw)
Kolmogorov-Smirnov statistic:  0.1396646 
Cramer-von Mises statistic:  0.6840994 
Anderson-Darling statistic:  3.573646 

1

डाटासेट का पता लगाने के लिए मुझे वास्तव में पसंद है rattle। पैकेज स्थापित करें और बस कॉल करें rattle()। इंटरफ़ेस काफी आत्म व्याख्यात्मक है।


खड़खड़ (एक Windows बाइनरी में और उपलब्ध नहीं) एक्सएमएल जो विंडोज के लिए समर्थित नहीं है की आवश्यकता है :-(। cran.r-project.org/web/packages/XML/index.html
whuber

@ शुभकर्ता: बहुत बुरा! यह काफी साफ पैकेज है
निको

2
@whuber @nico XML के लिए एक ज़िप फ़ाइल उदाहरण के लिए आँकड़े . ox.ac.uk/pub/RWin/bin/windows/contrib/2.13 (और इसी तरह कुछ अन्य संस्करणों के लिए) पर मिल सकती है। इसके साथ अन्य मुद्दे हैं, लेकिन अंततः यह काम करने लगता है
हेनरी

0

हो सकता है कि आप लाइब्रेरी ggplot2 की तलाश कर रहे हों जो आपको चीजों को एक सुंदर तरीके से बनाने की अनुमति देता है। या आप इस वेबसाइट की जाँच कर सकते हैं कि आर ग्राफिक उपयोगिताओं के बहुत सारे हैं लगता है http://addictedtor.free.fr/graphiques/


0

इसका संभवत: वैसा नहीं है जैसा आप ढूंढ रहे हैं, लेकिन आर के लिए मनोवैज्ञानिक पैकेज में जोड़े (पैनल्स) फ़ंक्शन उपयोगी साबित हो सकते हैं। यह आपको ऊपरी विकर्ण, कम रेखा और निचले विकर्ण में बिंदुओं में सहसंबंध मूल्य देता है, और मैट्रिक्स के विकर्ण लाइन में प्रत्येक चर के अंकों का एक हिस्टोग्राम दिखाता है। मैं व्यक्तिगत रूप से इसके आसपास डेटा के सबसे अच्छे ग्राफिकल सारांशों में से एक मानता हूं।


0

मेरा पसंदीदा DescTools है

library(DescTools)
data("iris")
Desc(iris, plotit = T)

जो इन जैसे भूखंडों की एक श्रृंखला तैयार करता है:

यहाँ छवि विवरण दर्ज करें यहाँ छवि विवरण दर्ज करें और वर्णनात्मक मूल्यों की एक श्रृंखला प्रदर्शित करता है (माध्य, माध्य, माध्यिका, प्रतिशत, श्रेणी, एसडी, IQR, तिरछापन और कुर्टोसिस के मान सहित): यहाँ छवि विवरण दर्ज करें

वैकल्पिक रूप से, टैब्लेट एक चित्रमय अवलोकन के लिए भी बहुत अच्छा है।

यह के साथ फैंसी भूखंडों का उत्पादन करता है tableplot(iris, sortCol=Species)

यहाँ छवि विवरण दर्ज करें

यहां तक ​​कि एक डी 3 संस्करण भी है tabplot, अर्थात टैबप्लोट 3

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.