क्या हिस्टोग्राम में माध्य की साजिश करना उचित है?


13

क्या औसत मूल्य की कल्पना करने के लिए हिस्टोग्राम में एक ऊर्ध्वाधर रेखा जोड़ना "ठीक" है?

यह मेरे लिए ठीक लगता है, लेकिन मैंने इसे पाठ्यपुस्तकों और पसंद में कभी नहीं देखा है, इसलिए मैं सोच रहा हूं कि क्या किसी तरह का सम्मेलन ऐसा नहीं करना है?

ग्राफ एक टर्म पेपर के लिए है, मैं सिर्फ यह सुनिश्चित करना चाहता हूं कि मैं गलती से कुछ सुपर महत्वपूर्ण अनस्पोक सांख्यिकी नियम को तोड़ न दूं। :)


क्यों नहीं। सिर्फ एक टिप्पणी जोड़ने के लिए। मतलब हिस्टोग्राम के रूप में एक सारांश मूल्य है। आप उदाहरण के लिए हिस्टोग्राम के बाल्टी के आकार को अलग-अलग प्रदान की गई जानकारी की डिग्री को भिन्न कर सकते हैं। हालांकि, आमतौर पर हिस्टोग्राम सिर्फ माध्य से अधिक जानकारी प्रदान करता है। आप वास्तव में हिस्टोग्राम से माध्य मान का अनुमान लगा सकते हैं। मुझे लगता है यही कारण है कि वे आम तौर पर एक साथ प्रदान नहीं किए जाते हैं।
सिमोन

कभी-कभी एक अतिवृद्धि वितरण के साथ हिस्टोग्राम देखता है (उदाहरण के लिए मेरे अनुभव में, सामान्य रूप से नमूना माध्य और मानक विचलन का उपयोग करके प्लॉट किए गए।) जो एक ऊर्ध्वाधर रेखा खींचने के रूप में एक ही काम कर रहा है (और थोड़ा अधिक) (संकेत के रूप में) मीन वक्र के शिखर के साथ है।)
जेम्स स्टेनली

जवाबों:


30

बेशक, क्यों नहीं?

मतलब के साथ हिस्टोग्राम

यहाँ एक उदाहरण है (एक साधारण Google खोज के साथ दर्जनों में से एक)

मतलब और मंझला के साथ

(छवि स्रोत मापने योग्य प्रयोज्य ब्लॉग है, यहाँ ।)

मैंने विभिन्न तरीकों से प्रदर्शित किए गए साधनों, साधनों के साथ-साथ एक मानक विचलन, विभिन्न मात्राएँ (जैसे माध्यिका, चतुर्थक, 10 वीं और 90 वीं प्रतिशतता) देखी हैं।

प्लॉट के ठीक सामने एक रेखा खींचने के बजाय, आप इसकी तह तक जानकारी अंकित कर सकते हैं - जैसे:

सीमांत बॉक्सप्लॉट के साथ हिस्टोग्राम

एक उदाहरण (कई में से एक पाया जा सकता है) नीचे के बजाय ऊपर की तरफ एक बॉक्सप्लॉट के साथ है

कभी-कभी लोग डेटा में चिह्नित करते हैं:

हिटरोग्राम रगप्लॉट जिटर के साथ
(मैंने डेटा स्थानों को थोड़ा परेशान किया है क्योंकि मान पूर्णांक में गोल हो गए थे और आप सापेक्ष घनत्व को अच्छी तरह से नहीं देख सकते थे।)

इस तरह का एक उदाहरण है, इस पृष्ठ पर स्टाटा में किया गया, (तीसरा यहां देखें )

हिस्टोग्राम्स थोड़ी अतिरिक्त जानकारी के साथ बेहतर हैं - वे अपने आप से भ्रामक हो सकते हैं

आपको केवल यह बताने की ज़रूरत है कि आपके प्लॉट में क्या है! (आप शुरुआत के लिए, मैं यहां इस्तेमाल किया गया एक बेहतर शीर्षक और एक्स-अक्ष लेबल चाहता हूं। इसके अलावा एक आंकड़ा कैप्शन में एक स्पष्टीकरण जो आपको इस पर चिह्नित किया गया था।)

-

एक अंतिम साजिश:

स्ट्रिपचर के साथ हिस्टोग्राम

-

मेरे प्लॉट R में बने हैं।

संपादित करें:

जैसा कि @gung surmised abline(v=mean...था , का उपयोग प्लॉट में माध्य-रेखा rugखींचने के लिए किया गया था और डेटा मानों को आकर्षित करने के लिए उपयोग किया गया था (हालांकि मैं वास्तव में उपयोग किया rug(jitter(...गया था क्योंकि डेटा पूर्णांकों के लिए गोल था)।

यहाँ हिस्टोग्राम और अक्ष के बीच बॉक्सप्लेट करने का एक तरीका है:

hist(Davis2[,2],n=30)
boxplot(Davis2[,2],
  add=TRUE,horizontal=TRUE,at=-0.75,border="darkred",boxwex=1.5,outline=FALSE)

मैं यह बताने के लिए नहीं जा रहा हूं कि सब कुछ क्या है, लेकिन आप मदद के लिए तर्कों की जांच कर सकते हैं ( ?boxplot) कि वे क्या कर रहे हैं, यह पता लगाने के लिए, और खुद उनके साथ खेलें।

हालाँकि, यह एक सामान्य समाधान नहीं है - मैं इसकी गारंटी नहीं देता कि यह हमेशा काम करेगा और साथ ही यह यहाँ भी होगा (ध्यान दें मैंने पहले ही विकल्प atऔर boxwexविकल्प बदल दिए हैं )। यदि आप हर चीज का ध्यान रखने के लिए एक बुद्धिमान कार्य नहीं लिखते हैं, तो यह ध्यान देना आवश्यक है कि जो कुछ आप चाहते हैं वह सब कुछ सुनिश्चित करने के लिए क्या करता है।

यहां बताया गया है कि मेरे द्वारा उपयोग किए गए डेटा को कैसे बनाया जाए (मैं यह दिखाने की कोशिश कर रहा था कि कैसे Theil regression वास्तव में कई प्रभावशाली आउटलेयर को संभालने में सक्षम था)। यह सिर्फ उस डेटा के साथ हुआ जो मैं तब खेल रहा था जब मैंने पहली बार इस प्रश्न का उत्तर दिया था।

 library("car")
 add <- data.frame(sex=c("F","F"),
       weight=c(150,130),height=c(NA,NA),repwt=c(55,50),repht=c(NA,NA))
 Davis2 <- rbind(Davis,add)

* - के लिए एक उचित मूल्य atलगभग -0.5 गुना के मूल्य का है boxwex; यदि आप इसे करने के लिए फ़ंक्शन लिखते हैं तो यह एक अच्छा डिफ़ॉल्ट होगा; boxwexएक तरह से स्केल करने की आवश्यकता होगी जो बॉक्सप्लॉट के वाई-स्केल (ऊंचाई) से संबंधित है; मैं सुझाव देता हूं कि 0.04 से 0.05 गुना ऊपरी y- सीमा अक्सर ठीक हो सकती है।

सीमांत धारीदार के लिए कोड:

 hist(Davis2[,2],n=30)
 stripchart(jitter(Davis2[,2],amount=.5),
       method="jitter",jitter=.5,pch=16,cex=.05,add=TRUE,at=-.75,col='purple3')

+1, ये अच्छे हैं; कोड जोड़ने के लिए देखभाल? abline(v=mean(Davis2[,2]))और rug(Davis2[,2])मैं अनुमान लगाऊंगा, लेकिन आपने वहां बॉक्सप्लेट कैसे लगाया?
गंग - मोनिका

1
@ गूँज को संक्षिप्त विवरण के लिए संपादित करें देखें, जिसमें बॉक्सप्लॉट के समान एक प्रतिलिपि प्रस्तुत करने योग्य उदाहरण भी शामिल है। यह वास्तव में boxplotफ़ंक्शन के कई तर्कों का उपयोग करने से अधिक चालाक कुछ नहीं कर रहा है । के बीच boxplotऔर boxpआप थोड़े से प्रयास के साथ कुछ बल्कि निफ्टी चीजें कर सकते हैं।
Glen_b -Reinstate मोनिका

युगों के लिए बुद्धि: "यदि आप हर चीज का ध्यान रखने के लिए एक बुद्धिमान कार्य नहीं लिखते हैं, तो यह ध्यान देना आवश्यक है कि हर चीज यह सुनिश्चित करने के लिए क्या करती है कि वह वही कर रही है जो आप चाहते हैं?" ;-)
गूँग - मोनिका

हां। मैं भी सेट करने के लिए चालाक कुछ लिख विचार किया atऔर boxwexऔर इतने पर ... लेकिन सबसे अच्छे रूप में मैं केवल कि एक साल की तरह कुछ भूखंडों करते हैं, और यह कुछ ही सेकंड प्रकार के लिए प्रत्येक समय लगता है? Boxplot और सही विकल्प सेट। मुझे लगा कि मैं जो कर रहा हूं, उस पर ध्यान देना आसान है।
Glen_b -Reinstate मोनिका

@ मेरे द्वारा उपयोग किए जा रहे डेविस 2 डेटा को बनाने के लिए कोड देने के लिए मैंने संपादित किया। उम्मीद है की वो मदद करदे।
Glen_b -Reinstate मोनिका

3

निःसंदेह तुमसे हो सकता है। बस स्पष्ट रूप से लेबल / संकेत दें कि लाइन का क्या मतलब है, और प्लॉट को भी 'व्यस्त' बनाने से बचें।

कुछ भी नहीं एक ग्राफ से भी बदतर है जो आसानी से समझ में आने के लिए बहुत अधिक जानकारी प्रदान करता है। तालिका एक स्पष्ट, संक्षिप्त मामले में सारांश आँकड़े प्रदर्शित करने के लिए अक्सर अनदेखी तरीका है।


2

पिछले उत्तर उत्कृष्ट अंक बनाते हैं, लेकिन यहां एक मौलिक जोड़ा जाना है।

मतलब एक वितरण के गुरुत्वाकर्षण का केंद्र है और इसलिए एक हिस्टोग्राम का धुरी बिंदु। यह वह जगह है जहाँ वितरण संतुलन होगा। इसलिए, एक पारस्परिक संबंध है: न केवल मतलब है कि आप एक हिस्टोग्राम के बारे में सोचने में मदद कर सकते हैं, इसलिए एक हिस्टोग्राम भी आप मतलब के बारे में सोचने में मदद कर सकते हैं। यह तब और भी अधिक सहायक होता है जब वितरण को तिरछा किया जाता है और वितरण का मतलब बीच में जरूरी नहीं होता है।


1

मुझे इसके साथ कोई समस्या नहीं है, यह , यह , और यह उदाहरण के रूप में देखें।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.