एक ही पैमाने पर दो हिस्टोग्राम लगाने का सबसे अच्छा तरीका?


14

मान लीजिए कि मेरे पास दो वितरण हैं जिनकी मैं विस्तार से तुलना करना चाहता हूं, अर्थात आकार, पैमाना और बदलाव आसानी से दिखाई देता है। ऐसा करने का एक अच्छा तरीका प्रत्येक वितरण के लिए एक हिस्टोग्राम करना है, उन्हें एक ही एक्स पैमाने पर रखना है, और दूसरे के नीचे एक स्टैक करना है।

ऐसा करते समय, बिनिंग को कैसे किया जाना चाहिए? क्या दोनों हिस्टोग्राम एक समान सीमा का उपयोग करते हैं भले ही एक वितरण दूसरे की तुलना में बहुत अधिक फैला हुआ हो, जैसा कि नीचे चित्र 1 में है? नीचे चित्र 2 में, जैसा कि नीचे ज़ूम करने से पहले प्रत्येक हिस्टोग्राम के लिए स्वतंत्र रूप से बिनिंग किया जाना चाहिए? क्या इस पर भी अंगूठे का एक अच्छा नियम है?

चित्र 1 चित्र 2


5
क्यूक्यू प्लॉट अनुभवजन्य वितरण की तुलनात्मक तुलना के लिए बेहतर उपकरण हैं। इनके इस्तेमाल से पूरी तरह से बाइनिंग की समस्या से बचा जाता है।
whuber

3
@ वाउचर: सहमत हैं, अगर आप सिर्फ एक संवेदनशील दृश्य चाहते हैं कि क्या दो वितरण अलग हैं, लेकिन हिस्टोग्राम दृष्टिकोण बेहतर है अगर आप अलग-अलग जानकारी चाहते हैं कि वे कैसे अलग हैं।
dsimcha

3
@dsimcha मेरा अनुभव इसके विपरीत रहा है। क्यूक्यू प्लॉट स्पष्ट रूप से (मात्रात्मक तरीके से) स्केल, स्थान और आकार के अंतर को दर्शाता है, विशेष रूप से पूंछ की मोटाई में। (उदाहरण के लिए, हिस्टोग्राम से सीधे दो एसडी की तुलना करने की कोशिश करें: जब वे मूल्य में करीब हों तो यह असंभव है। क्यूक्यू प्लॉट पर आपको केवल ढलान की तुलना करने की आवश्यकता है, जो तेज और अपेक्षाकृत सटीक है।) एक क्यूक्यू प्लॉट शब्दों में हिस्टोग्राम से नीचा है। बाहर निकालने के तरीके, लेकिन कोई हिस्टोग्राम उस पर अच्छा नहीं है, जब तक कि एक अच्छी मात्रा में डेटा एकत्र नहीं किया गया है और डिब्बे का एक अच्छा विकल्प बनाया गया है।
whuber

1
मैं मानता हूं कि क्यूक्यू प्लॉट सबसे अच्छा समाधान हैं, हालांकि वे बिन समस्या से बचते नहीं हैं, वे आपको केवल विशेष स्थानों पर डिब्बे लगाने के लिए मजबूर करते हैं (क्वांटाइल्स :-) दूसरी तरफ इसका मतलब यह है कि डिब्बे नहीं करते हैं , वास्तव में दो वितरणों द्वारा साझा नहीं किया जाना चाहिए।
conjugateprior

1
@dsimcha, मुझे लगता है कि उम्र / लिंग भूखंड जैसी कुछ उपयोगी तस्वीरें हो सकती हैं। वैसे भी इसके लिए हिस्टोग्राम का उपयोग क्यों करें? सीधे प्लॉट वितरण कार्य। हालांकि, अगर आप अनुभवजन्य चीजों के साथ खेल रहे हैं, तो क्यूक्यू प्लॉट सुझाव सबसे अच्छा विकल्प है।
पापेल सेलोव

जवाबों:


7

मुझे लगता है कि आपको उसी डिब्बे का उपयोग करने की आवश्यकता है। नहीं तो मन तुम पर चालें खेलता है। सामान्य # (0,2) छवि # 2 में सामान्य (0,1) के सापेक्ष अधिक फैला हुआ दिखता है, जैसा कि छवि # 1 में है। आंकड़ों से कोई लेना-देना नहीं। यह सामान्य जैसा दिखता है (0,1) एक "आहार" पर चला गया।

-राल्फ विंटर्स

मिडपॉइंट और हिस्टोग्राम अंत बिंदु भी फैलाव की धारणा को बदल सकते हैं। ध्यान दें कि इस एप्लेट में एक अधिकतम बिन चयन की सीमा ~ १.५ - ~ ५ है, जबकि एक न्यूनतम बिन चयन का अर्थ है <१ -> ५.५

http://www.stat.sc.edu/~west/javahtml/Histogram.html


1
क्या आप इस राय के लिए कुछ सैद्धांतिक औचित्य प्रदान कर सकते हैं?
whuber

नहीं, सिर्फ एक राय। लेकिन अगर मेरे पास समय होता, तो मैं खुदरा पैकेजिंग की दुनिया (पतली शरीर की धारणा) से अपना शोध शुरू करता, और टफ्टे के कुछ कामों को शामिल करता।
राल्फ विंटर्स

@ शुभंकर: यह ज्यादातर हमारे मस्तिष्क की जानकारी को संसाधित करने के तरीके से संबंधित है। जब छोटे डिब्बे होते हैं, तो हमारा दिमाग भी वक्र की सीमाओं को "सिकोड़ता" है। अंजीर में डिब्बे के आकार को उलटने की कोशिश करें। # 2 मेरा मतलब देखने के लिए।
निको

@ निको हां, प्रश्न के लिए एक अवधारणात्मक तत्व है। लेकिन सबसे आगे सांख्यिकीय मुद्दा है क्योंकि इसका बहुत बड़ा प्रभाव है: छोटे डिब्बे ==> डिब्बे में अधिक नमूना परिवर्तनशीलता ==> तुलना में अधिक "रैग्ड" हिस्टोग्राम ==> अधिक कठिनाई। इस प्रकार, IMO, किसी भी सार्थक उत्तर को सांख्यिकीय सिद्धांत (न्यूनतम पर) से समर्थन जोड़ना चाहिए ।
whuber

@ वाउचर: मैं इस तथ्य का उल्लेख कर रहा था कि वितरण दो छवियों में अलग-अलग दिखाई देता है । बेशक वे कैसे दिखते हैं, इससे कोई लेना-देना नहीं है कि वे वास्तव में कितने बिखरे हुए हैं।
निको

2

एक अन्य दृष्टिकोण एक ही भूखंड पर अलग-अलग वितरणों की साजिश रचने और ओवरप्लेटिंग मुद्दों को संबोधित करने के लिए alphaपैरामीटर जैसे कुछ का उपयोग करना होगा ggplot2। इस पद्धति की उपयोगिता आपके वितरण में अंतर या समानता पर निर्भर होगी क्योंकि उन्हें एक ही डिब्बे के साथ प्लॉट किया जाएगा। एक अन्य विकल्प प्रत्येक वितरण के लिए चिकने घनत्व घटता को प्रदर्शित करना होगा। इन विकल्पों में से एक उदाहरण और धागे में चर्चा की गई अन्य विकल्प हैं:

library(ggplot2)

df <- melt(
    data.frame( 
        x = rnorm(1000)
        , y = rnorm(1000, 0, 2)
    )
)


ggplot(data = df) + 
#   geom_bar(aes(x = value, fill = variable), alpha = 1/2)
#   geom_bar(aes(x = value)) + facet_grid(variable ~ .)
#   geom_density(aes(x = value, colour = variable))
#   stat_qq(aes(sample = value, colour = variable))

क्या यह उचित कर्नेल चौड़ाई का चयन करने के मुद्दे पर सवाल को नीचे नहीं धकेलता है और क्या (और कैसे) एक अलग कर्नेल चौड़ाई का उपयोग करके दो चिकनी तुलना कर सकता है?
whuber

1
@whuber - मान्य बिंदु। मैं घनत्व घटता का सुझाव देने की कोशिश नहीं कर रहा था, सभी अंत में उपयोग करने की सभी विधि हो, बस अन्य विकल्पों की पेशकश कर रहे थे। इस पोस्ट से यह स्पष्ट है कि किसी भी दृष्टिकोण के लिए पेशेवरों और विपक्ष हैं, इसलिए इस मिश्रण में फेंकने के लिए एक अन्य व्यवहार्य विकल्प के रूप में पेश किया गया था।
चेज

इसके प्रकाश में, मैं आपके उत्तर को +1 कर रहा हूं।
whuber

0

तो यह उसी बिन आकार को बनाए रखने या समान संख्या को बनाए रखने का सवाल है? मैं दोनों पक्षों के तर्क देख सकता हूं। काम के आसपास पहले मानों को मानकीकृत करना होगा । तब आप दोनों को बनाए रख सकते थे।


यह काम करेगा जब दो नमूना आकार समान हैं। लेकिन जब वे भिन्न होते हैं, तो सामान्य बिन आकार (मानकीकृत इकाइयों में भी) एक या दूसरे हिस्टोग्राम के लिए उपयुक्त हो सकता है, लेकिन दोनों के लिए नहीं। आप उस मामले से कैसे निपटेंगे?
whuber

शायद हम मानकीकरण के विभिन्न अर्थों के बारे में सोच रहे हैं। मेरा मतलब है कि मैं इससे जुड़ा था, उदाहरण के लिए, अगर एक आबादी में 5 का stdev है और दूसरे में 10 का stdev है, तो मानकीकरण के बाद वे दोनों का stdev होगा। वे तब उसी के साथ तुलना में अधिक निष्पक्ष हो सकते हैं बिन आकार के बाद से प्रत्येक बिन में पिक्सेल और डेटा की तुलनीय मात्रा होती है। या हो सकता है आप बड़े मुद्दे पर हो रहे थे कि "उपयुक्त बिन आकार" एक काली कला का एक सा है और हर डेटा सेट के लिए अद्वितीय है ...
xan

हम "मानकीकृत" का एक ही अर्थ साझा करते हैं। एक बिन आकार का चयन करने के लिए निर्णय और संदर्भ के ज्ञान की आवश्यकता होती है, लेकिन इसे "ब्लैक आर्ट" के रूप में चिह्नित करने के लिए एक खिंचाव है: उदाहरण के लिए, आँकड़े ।stackexchange.com / q / 798 / 919
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.