तीन समूहों में कई अनुपातों में अंतर की कल्पना कैसे करें?

18

मैं नेत्रहीन तुलना करने की कोशिश कर रहा हूं कि कैसे तीन अलग-अलग समाचार प्रकाशन विभिन्न विषयों को कवर करते हैं (एक एलडीए विषय मॉडल के माध्यम से निर्धारित)। मेरे पास ऐसा करने के लिए दो संबंधित तरीके हैं, लेकिन सहयोगियों से बहुत प्रतिक्रिया मिली है कि यह बहुत सहज नहीं है। मैं उम्मीद कर रहा हूँ कि किसी को यह कल्पना करने के लिए एक बेहतर विचार है।

पहले ग्राफ में, मैं प्रत्येक प्रकाशन में प्रत्येक विषय के अनुपात को दिखाता हूं, जैसे:

सभी विषयों और प्रकाशनों के लिए अनुपात

यह बहुत सीधा और सहज है, लगभग हर किसी से जिसकी मैंने बात की है। हालांकि, प्रकाशनों के बीच के अंतर को देखना मुश्किल है। कौन सा अखबार किस विषय को अधिक कवर करता है?

इसे प्राप्त करने के लिए, मैंने प्रकाशन के बीच अंतर को उच्चतम और दूसरे विषयों के उच्चतम अनुपात के साथ चित्रित किया, जो उच्चतम के साथ प्रकाशन द्वारा रंगीन है। ऐशे ही:

पहले और दूसरे उच्चतम विषयों के बीच अंतर

इसलिए, फुटबॉल के लिए विशाल बार, उदाहरण के लिए, वास्तव में अल-अहराम अंग्रेजी और डेली न्यूज मिस्र (फुटबॉल कवरेज में # 2) के बीच की दूरी है, और यह लाल रंग का है क्योंकि अल-अहराम # 1 है। इसी तरह, परीक्षण हरा है क्योंकि मिस्र के स्वतंत्र का अनुपात सबसे अधिक है, और बार का आकार मिस्र के स्वतंत्र और दैनिक समाचार मिस्र (# 2 फिर से) के बीच की दूरी है।

यह तथ्य कि मुझे यह समझाना है कि सभी दो पैराग्राफ में यह एक बहुत ही निश्चित संकेत है कि ग्राफ आत्मनिर्भरता परीक्षण में विफल रहता है। यह बताना मुश्किल है कि वास्तव में इसे देखकर क्या हो रहा है।

किसी भी सामान्य सुझाव के बारे में कि कैसे प्रत्येक विषय के लिए प्रमुख प्रकाशन को अधिक सहज तरीके से प्रकाशित किया जाए?

संपादित करें: साथ खेलने के लिए डेटा: यहां dputआर से आउटपुट , साथ ही एक सीएसवी फ़ाइल भी है ।

संपादित 2: यहाँ एक प्रारंभिक डॉट प्लॉट संस्करण है, बिंदुओं के व्यास के साथ कॉर्पस में विषय के अनुपात में आनुपातिक (जो कि विषयों को मूल रूप से कैसे सॉर्ट किया गया था)। हालाँकि मुझे अभी भी इसे थोड़ा और ट्विस्ट करने की ज़रूरत है, यह पहले की तुलना में बहुत अधिक सहज महसूस करता है। सबको धन्यवाद!

बिंदु साजिश

data-visualization communication

— एंड्रयू
स्रोत

1

मैंने अभी कुछ डेटा (R और CSV के लिए) जोड़े हैं। मैंने अभी तक अच्छे रंगों का चयन नहीं किया है (इसलिए क्रिस्मस रेड / ग्रीन), हालांकि मुझे कलर ब्लाइंड मुद्दों के बारे में पता है :)

— एंड्रयू

1

"अनुपात" का उल्लेख यहां एक लाल हेरिंग का एक सा है, क्योंकि डेटा वास्तव में अनुपात नहीं हैं और इससे भी महत्वपूर्ण बात यह है कि अब तक कोई भी ग्राफिकल समाधान डेटा के अनुपात पर निर्भर नहीं करता है। यह अच्छा है क्योंकि समाधान में डेटा की एक विस्तृत श्रृंखला के लिए प्रासंगिकता है, लेकिन गुमराह न हों।

— निक कॉक्स

(+1) अच्छा प्रश्न, डाउनलोड करने योग्य डेटासेट और त्वरित अनुगमन सहित!

— CHL

एंड्रयू, आपके नवीनतम संपादन के बारे में, मुझे लगता है कि यह ऊर्ध्वाधर ग्रिड लाइनों के साथ बेहतर होगा। वे एक चेकर पैटर्न बनाते हैं, लेकिन बहुत अधिक मूल्य नहीं जोड़ते हैं, यह मानते हुए कि आप ग्राफ से सटीक मान पढ़ने के बारे में परवाह नहीं करते हैं।

— xan

ऊर्ध्वाधर लाइनों के बिना ?

— एंड्रयू

18

डेटा को सुलभ बनाने के लिए और एक दिलचस्प डेटासेट और चित्रमय चुनौती के लिए धन्यवाद।

मेरा मुख्य सुझाव एक (क्लीवलैंड) डॉट चार्ट का है।

यहाँ छवि विवरण दर्ज करें

सबसे महत्वपूर्ण विवरण मैं जोर देना चाहूंगा:

सुपरइम्पोजिशन यहां तुलना की अनुमति देता है और सहजता प्रदान करता है।
आपके डिस्प्ले में विषयों का क्रम काफी मनमाना लगता है। एक प्राकृतिक क्रम (उदाहरण के लिए समय, स्थान, एक आदेशित चर) अनुपस्थित मैं हमेशा एक चर प्रदान करने के लिए चर में से एक पर छाँटूँगा। एक शोधकर्ता के निर्णय के लिए कौन सा उपयोग करना है, क्या यह विशेष रूप से दिलचस्प या महत्वपूर्ण हो सकता है। एक और संभावना है कि कागजात के बीच अंतर के कुछ माप पर आदेश दिया जाए, ताकि समान कवरेज प्राप्त करने वाले विषय एक छोर पर हों और दूसरे छोर पर अलग-अलग कवरेज प्राप्त करने वाले।
खुले मार्कर या बिंदु चिह्न ओवरलैप या पहचान को बंद या ठोस मार्कर या प्रतीकों से बेहतर हल करने की अनुमति देते हैं, जो सबसे खराब मामलों में एक-दूसरे को अस्पष्ट करते हैं या रोकते हैं। (एक विकल्प जो यहां काफी अच्छा काम कर सकता है वह तीन अखबारों के लिए ए, डी और आई जैसे पत्र हैं।)

मेरे डिज़ाइन में सुधार की बहुत गुंजाइश है। उदाहरण के लिए, लेटरिंग बहुत बड़ी है और / या बहुत भारी है? दूसरी ओर, शीर्षकों को आसानी से पढ़ा जा सकता है, अन्यथा ग्राफ़ विफलता है।

कुछ छोटे, पिकर पॉइंट:

ए। अपने ग्राफ पर लाल और हरे रंग से बचना एक रंग संयोजन है। जब अलग-अलग मार्करों का उपयोग किया जाता है, तो रंग विकल्प थोड़ा कम महत्वपूर्ण होते हैं।

ख। आपके ग्राफ़ पर क्षैतिज टिक ध्यान भंग कर रहे हैं। इसके विपरीत, खदान पर ग्रिड लाइनों की आवश्यकता होती है, लेकिन मैं पतली, हल्की लाइनों का उपयोग करके उन्हें विनीत बनाने की कोशिश करता हूं।

$\times$

क्लीवलैंड डॉट चार्ट सबसे ज्यादा बकाया है

क्लीवलैंड, WS 1984. डेटा प्रस्तुति के लिए चित्रमय विधियाँ: पूर्ण पैमाने पर विराम, डॉट चार्ट और बहुविकल्पी लॉगिंग। अमेरिकी सांख्यिकीविद् 38: 270-80।

क्लीवलैंड, डब्ल्यूएस 1985। ग्राफिंग डेटा के तत्व। मोंटेरे, सीए: वड्सवर्थ।

क्लीवलैंड, WS 1994. डेटा रेखांकन के तत्व। शिखर सम्मेलन, एनजे: होबार्ट प्रेस।

एक अग्रदूत (काफी अलग काम के लिए अधिक प्रसिद्ध सांख्यिकीय !!!) था

पियर्सन, ईएस 1956. आंकड़ों की ज्यामिति के कुछ पहलू: गणितीय आंकड़ों के सिद्धांत और अनुप्रयोग को समझने में दृश्य प्रस्तुति का उपयोग। रॉयल सांख्यिकीय सोसायटी ए 119: 125-146 का जर्नल।

रुचि रखने वालों के लिए, कोड के साथ .csv में पढ़ने के बाद स्टाटा में ग्राफ तैयार किया गया था

graph dot (asis) prop , over(pub) over(label, sort(1)) asyvars 
marker(1, ms(Oh)) marker(2, ms(+)) marker(3, ms(Th)) linetype(line)   
lines(lc(gs12) lw(vthin)) scheme(s1color)

— निक कॉक्स
स्रोत

यह बहुत बढ़िया है - धन्यवाद! दुर्भाग्य से कुछ भी जोड़ नहीं है क्योंकि मूल्यों को दस्तावेजों के एक बड़े कोष से मानकीकृत साधन हैं (अर्थात प्रत्येक प्रकाशन में प्रत्येक दस्तावेज़ में 20 विषयों के कुछ संयोजन शामिल हैं, जो एलडीए द्वारा खोजा गया है - सामान्यीकृत अर्थ दिखाता है ... इसलिए छोटी संख्या)

— एंड्रयू

साथ ही, विषयों को कॉर्पस में उनके अनुपात द्वारा आदेश दिया जाता है। मिस्र का शासन सबसे सामान्य रूप से प्रदर्शित होने वाला विषय है, जबकि विविधतम दुर्लभ विषय है। लेकिन उस आदेश का उपयोग करके यहां डॉट्स / प्रतीकों को नेत्रहीन रूप से पालन करने के लिए थोड़ा कठिन हो जाता है।

— एंड्रयू

यह भी खूब रही! धन्यवाद! मैंने आपके सुझावों को प्रतिबिंबित करने और कॉर्पस अनुपात को जोड़ने के लिए मूल पोस्ट को अपडेट किया।

— एंड्रयू

(+6) अच्छा जवाब! और संदर्भ और प्रतिलिपि प्रस्तुत करने योग्य कोड रखना हमेशा अच्छा होता है।

— CHL

@chl सराहनीय टिप्पणियों और अतिरिक्त प्रतिष्ठा के लिए बहुत धन्यवाद।

— निक कॉक्स

14

निक कॉक्स से डॉट प्लॉट शायद पूरी तस्वीर के लिए सबसे अच्छा है। यदि आप वास्तव में पहले बनाम दूसरे रिश्ते पर जोर देना चाहते हैं, तो यहां आपके चार्ट में संशोधन किया गया है जो दूसरी पट्टी की लंबाई के साथ अंतर पट्टी को बंद कर देता है।

यहाँ छवि विवरण दर्ज करें

और एक अलग बड़े चित्र दृश्य के लिए, आप ढलान चार्ट या समानांतर निर्देशांक भूखंड की तरह कुछ कोशिश कर सकते हैं। यहां लाइनें थोड़ी भीड़ वाली हो सकती हैं, लेकिन यदि आप विषयों के सबसेट पर प्रकाश डालना चाहते हैं तो यह काम कर सकता है।

यहाँ छवि विवरण दर्ज करें

इसके अलावा, आप helpmeviz.com की कोशिश कर सकते हैं जो इस तरह के बहुत ही विशिष्ट डेटा अर्थात प्रश्नों के प्रति तैयार है।

— Xan
स्रोत

दिलचस्प! मिनट बिंदु: अक्ष शीर्षक या लेबल "अनुपात"% की इकाइयों से मेल नहीं खाता है।

— निक कॉक्स

ओह, यह वास्तव में दिलचस्प है। मैं यह देखने के लिए इसके साथ खेलने जा रहा हूं कि क्या यह डॉट चार्ट को पूरक कर सकता है।

— एंड्रयू

2

मेरा पहला उदाहरण मोज़ेक प्लॉट का सुझाव देना था ; यह प्रत्येक उप-श्रेणी को एक आयत के रूप में रेखांकन करता है, जहाँ एक आयाम मुख्य श्रेणी के लिए कुल गणना का प्रतिनिधित्व करता है और दूसरा आयाम उप-श्रेणी के आनुपातिक हिस्से का प्रतिनिधित्व करता है। नहीं है एक अनुसंधान उन्हें आकर्षित करने के लिए पैकेज , लेकिन यह भी काफी निचले स्तर रेखांकन उपकरण के साथ क्या करना सीधा है।

हालांकि, मोज़ेक प्लॉट (जैसे प्रतिशत-आधारित स्टैक्ड बार ग्राफ़) सबसे अच्छा काम करते हैं यदि उस अनुपात में केवल 2 या 3 श्रेणियां हैं, जिसमें आप अनुपात की तुलना करना चाहते हैं। इसलिए वे अच्छी तरह से काम करेंगे यदि आप प्रत्येक तीन अखबारों में लेखों के अनुपात में विषयों के बीच अंतर की तुलना करना चाहते थे , लेकिन आपके इच्छित उपयोग के लिए इतना नहीं, तो प्रत्येक विषय के लिए कवरेज के अनुपात में तीन अखबारों के बीच अंतर की तुलना करें । एक सूक्ष्म लेकिन महत्वपूर्ण अंतर!

आप जिस चीज पर जोर देना चाहते हैं, मुझे लगता है कि सबसे प्रभावी ग्राफ सबसे सरल है - एक समूहित बार ग्राफ। डॉट चार्ट की तुलना में अधिक लोग बार ग्राफ को समझते हैं; एक नज़र में, आप देख सकते हैं कि आप विभिन्न आकारों की मात्राओं की तुलना कर रहे हैं, और जिन मूल्यों की आप तुलना करना चाहते हैं वे साइड-बाय-साइड हैं।

हालाँकि, यदि आप वास्तव में अनुपात के अंतर पर जोर देना चाहते हैं , तो आप प्रत्येक समूह को स्थिति में संशोधित करने के लिए एक कस्टम समूहीकृत बार ग्राफ बना सकते हैं, ताकि प्रति श्रेणी का माध्य मान शून्य मानों के बजाय अक्ष के साथ संरेखित हो:

                  Difference in proportion of coverage
                     per Newspaper,
                     relative to category median 
                     (narrow bars)
    ____-0.1%____0_____0.1%____0.2%_____
                 |
        |********|*****
A       |~~~~~~~~|
        |####    |
                 |
            |****|**********
B           |~~  |
            |####|
                 |
         |*****  |
C        |~~~~~~~|~~~~~
         |#######|
                 |
     |***        |
D    |~~~~~~~~~~~|
     |###########|##
                 |
0.2%_____0.1%____0_____
Median proportion of coverage 
   per category, all papers
   (large bars)

ध्यान दें कि प्रत्येक समूह की सलाखों को आकार की आसान तुलना के लिए अभी भी संरेखित किया गया है, और प्रत्येक समूह की आधार रेखा अब उस समूह के औसत मूल्य के अनुसार अक्ष के बाईं ओर स्थित है , जबकि धुरी के दाईं ओर प्रोजेक्ट करने वाली पट्टियां बराबर हैं शीर्ष दो श्रेणियों के बीच का अंतर दिखाते हुए अपने दूसरे बार ग्राफ में।

चाहे आप मानक समूहित बार ग्राफ का उपयोग करें या ऊपर की तरह ऑफसेट-समायोजित ग्राफ़ का उपयोग करें, फिर भी आप मोज़ेक भूखंडों से एक विचार ले सकते हैं और उस समाचार पत्र के लिए कुल लेख गणना के लिए आनुपातिक बार की चौड़ाई बना सकते हैं (इसलिए आकार) बार उस श्रेणी में उस अखबार के लेखों की संख्या के लिए आनुपातिक है)।

चूँकि आपका परीक्षण आँकड़ा प्रत्येक तुलना का गुण है , व्यक्तिगत मूल्यों का नहीं, मुझे नहीं लगता कि महत्व के अनुसार हर डेटा बिंदु को मापना उपयोगी है। इसके बजाय, मेरे पास महत्व का प्रतिनिधित्व करने वाले प्रत्येक समूह के बगल में एक आइकन होगा। अकादमिक प्रकाशन के लिए, मानक */ **/ ***परिचित का लाभ है, लेकिन आप रचनात्मक हो सकते हैं यदि आप आंकड़े के पूर्ण सातत्य को दिखाना चाहते थे।

— AmeliaBR
स्रोत

यहां मुख्य विचार सलाखों को लंबवत रूप से समूहित करना है। यह एक व्यापक रूप से इस्तेमाल किया गया डिज़ाइन है, लेकिन पोस्टर के मूल में 20 के बजाय 60 बार लंबवत है। यद्यपि आप स्पष्ट रूप से बार की चौड़ाई को मोड़ सकते हैं, मुझे लगता है कि आपको इस मामले में अच्छी तरह से करने के लिए अधिक स्थान की आवश्यकता होगी, खासकर जब आप समूहों के साथ स्थान जोड़ना चाहते हैं।

— निक कॉक्स

@NickCox अधिक कॉम्पैक्ट मूल चार्ट की तुलना में एक नकारात्मक पहलू है, हालांकि यदि आप लैंडस्केप उन्मुख आंकड़ा आपके समग्र लेआउट के अनुकूल है तो आप पूरे ग्राफ को 90 डिग्री घुमा सकते हैं।

— अमेलियाबीआर

आप कर सकते हैं, लेकिन 60 सलाखों को बाएं से दाएं भी कठिन है, और "मुस्लिम ब्रदरहुड एंड पॉलिटिक्स" जैसे 20 लेबल को पठनीय रहना होगा ...

— निक कॉक्स

आप इसे साइड-बाय-साइड के बजाय एक-दूसरे के ऊपर एक समूह में बार होने से प्राप्त करने में सक्षम हो सकते हैं। मॉकअप देखे बिना कहना मुश्किल है (और मेरी ASCII कला देखने और महसूस करने में बहुत अच्छी नहीं है)। यह कम सहज होगा क्योंकि यह एक संरचना के रूप में परिचित नहीं है, और भ्रम की स्थिति पैदा हो सकती है अगर दो बार लगभग समान ऊंचाई हैं। लेकिन अगर विकल्प एक पिक्सेल चौड़ी पट्टियाँ है ...

— अमीलियाबीआर

तो, आप एक डॉट चार्ट के मेरे उत्तर में सुझाव के लिए आ रहे हैं।

— निक कॉक्स

1

क्या आपने बबल चार्ट की कोशिश की है? https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart

अलग-अलग विषय सर्कल हो सकते हैं और प्रत्येक सर्कल प्रतिशत का पाई चार्ट हो सकता है जो प्रत्येक समाचार आउटलेट विषय को कवर करता है। सर्कल का आकार विषय के सापेक्ष कवरेज का संकेत दे सकता है। उदाहरण के लिए, यदि संस्कृति की तुलना में तेल के बारे में कुल लेख लिखे गए हैं, तो तेल चक्र का एक बड़ा व्यास है।

— ROCINANTE
स्रोत

[X, Y]

$[X,Y]$

1

@NickStauner जब मैंने मूल रूप से इसका उत्तर दिया तो मैंने डेटा सेट के साथ संपादित प्रश्न नहीं देखा। को-ऑर्डिनेट्स ज्यादा लेकिन संख्या प्रकाशनों का संकेत नहीं देंगे। हलकों को विषय या व्यास के आकार के आधार पर क्लस्टर किया जा सकता है। मुझे नहीं पता कि पहले स्थान पर प्रतिशत का उपयोग क्यों किया गया क्योंकि संख्याएं बहुत कम हैं।

— राइनकांटे