आकस्मिक तालिकाओं के लिए सबसे अच्छा दृश्य कौन सा है?


22

सांख्यिकीय दृष्टिकोण से, एक आकस्मिक तालिका दिखाने के लिए कौन सा सबसे अच्छा प्लॉट है, जिसे आमतौर पर ची-स्क्वायर टेस्ट द्वारा विश्लेषण किया जा रहा है? क्या यह चकमा देने वाला बारप्लॉट, स्टैक्ड बारप्लॉट, हीटमैप, समोच्च प्लॉट, घबराना स्कैल्पलॉट, मल्टीपल लाइन्स प्लॉट या कुछ और है? क्या किसी को पूर्ण मूल्य या प्रतिशत दिखाना चाहिए?

संपादित करें: या जैसा कि @forecaster टिप्पणियों में बताता है, संख्याओं की तालिका अपने आप में एक सरल साजिश है और पर्याप्त होनी चाहिए।


4
कभी-कभी डेटा टेबल सबसे अच्छा दृश्य विधि बनाम भूखंड है। आकस्मिक तालिकाओं का एक उत्कृष्ट उदाहरण है।
फोरकास्टर

1
महत्वपूर्ण बिंदु, हालांकि मैं इस बात से सहमत नहीं हूं कि यह हमेशा सबसे अच्छा विकल्प है।
रंसो

1
यही कारण है कि मैंने "कभी-कभी" कहा। मैं सिफारिश करूंगा, स्टीफन Few मुझे संख्याओं को दिखाएं, जिसमें एक पूरा खंड तालिकाओं के लिए समर्पित है।
फोरकास्टर

1
अच्छी तरह से, सबसे अच्छी विधि इस बात पर निर्भर करती है कि आप क्या दिखाना चाहते हैं, मेज कितनी बड़ी है, बिना कुछ बारीकियों के यह व्यापक है!
kjetil b halvorsen

3
अधिकांश आँकड़े .stackexchange.com/questions/56322/… यहाँ उचित प्रतीत होते हैं।
निक कॉक्स

जवाबों:


9

यहाँ एक आकार-फिट-सभी समाधान नहीं होने जा रहा है। यदि आपके पास एक बहुत ही सरल तालिका है (उदाहरण के लिए, ), तो तालिका प्रस्तुत करना संभवतः सर्वोत्तम है। यदि आप एक वास्तविक आकृति चाहते हैं, तो मोज़ेक भूखंड (जैसा कि @xan से पता चलता है) शायद शुरू करने के लिए एक अच्छी जगह है। कुछ अन्य विकल्प हैं जो मोज़ेक भूखंडों के अनुरूप हैं, जिसमें छलनी भूखंड, एसोसिएशन भूखंड, और गतिशील दबाव भूखंड शामिल हैं (मेरा प्रश्न यहां देखें: आकस्मिक तालिकाओं के लिए चलनी / मोज़ेक भूखंडों के लिए वैकल्पिक ); माइकल फ्रेंडली की पुस्तक, विज़ुअलाइज़िंग श्रेणीबद्ध डेटा , इस विषय के लिए एक अच्छा (एसएएस-आधारित) संसाधन होगा और वीसीडी पैकेज उन विचारों को आर में लागू करने के लिए एक अच्छा संसाधन है। 2×2

जैसा कि तालिकाओं में बड़ी संख्या में पंक्तियाँ और स्तंभ हैं, हालाँकि, इनका उपयोग करना कठिन हो जाता है, मेरी राय में। पत्राचार विश्लेषण करने के लिए एक अलग प्रकार का दृश्य विकल्प है । एक पत्राचार विश्लेषण दोनों पंक्तियों और आकस्मिक तालिका के स्तंभों पर एक प्रमुख घटक विश्लेषण चलाने के लिए अनुरूप है। फिर दोनों को एक द्विपक्ष के साथ एक साथ रखा जाता है। यहाँ @ xan के उत्तर के डेटा का उपयोग करके R आधारित उदाहरण दिया गया है:

library(ca)
tab = as.table(rbind(c(28, 4,  0, 56),
                     c(38, 5,  9, 10),
                     c( 6, 6, 14, 13) ))
names(dimnames(tab)) = c("activity", "period")
rownames(tab)        = c("feed", "social", "travel")
colnames(tab)        = c("morning", "noon", "afternoon", "evening")
tab
#         period
# activity morning noon afternoon evening
#   feed        28    4         0      56
#   social      38    5         9      10
#   travel       6    6        14      13
plot(ca(tab))

यहां छवि विवरण दर्ज करें

इस भूखंड की व्याख्या करने के लिए, एक ही प्रकार के करीब दो बिंदु हैं, समान रूप से उन दो पंक्ति / स्तंभ प्रोफाइल हैं। और विभिन्न प्रकार के करीब दो बिंदु हैं, उनकी प्रायिकता द्रव्यमान का अधिक है जो उनके चौराहे का प्रतिनिधित्व करने वाले सेल में है।

आर में सीए पैकेज है ; यह विगनेट ( पीडीएफ ) भी सहायक हो सकता है।


बहुत उपयोगी। जाहिरा तौर पर यह छोटे मूल्यों के साथ विफल रहता है, उदाहरण के लिए: tt = with (mtcars, table (फ़ैक्टर) (फ़ैक्टर), फ़ैक्टर (बनाम)); साजिश (CA (टीटी)); X [, मंद] में त्रुटि: सीमा से बाहर
सब्सक्राइब

ऐसा इसलिए है क्योंकि कारकों में से एक (यानी factor(vs)) के केवल दो स्तर हैं; आपको कम से कम तीन की जरूरत है। कोशिश करो ttt = with(mtcars, table(factor(gear), factor(cyl))); plot(ca(ttt))
गूँज - मोनिका

विभिन्न कारकों के बीच संबंधों का बहुत अच्छा प्रदर्शन।
rnso

या आप पत्राचार विश्लेषण स्कोर के क्रम में पंक्तियों और स्तंभों को पुन: व्यवस्थित करने के बाद तालिका दिखा सकते हैं।
kjetil b halvorsen

दिलचस्प विचार, @kjetilbhalvorsen। मुझे यकीन नहीं है कि caऑब्जेक्ट से कैसे प्राप्त किया जाए, इसलिए मैंने इसे खरोंच से कोडित किया। जब तक मैंने कोई गलती नहीं की, आप पंक्तियों c(1,3,2)और स्तंभों को पुनः व्यवस्थित करते हैं c(4,1,3,2)। ऐसा करने के बाद, मुझे यकीन नहीं है कि मैं यहां क्या देखने वाला हूं। आपके दिमाग में क्या है?
गंग - मोनिका

11

अलग-अलग विशेषताओं को उजागर करने पर विभिन्न दृश्य बेहतर होंगे, लेकिन मोज़ेक भूखंड एक सामान्य दृश्य के लिए अच्छी तरह से काम करते हैं (यह देखने के लिए देखें कि क्या कुछ खड़ा है)। हो सकता है कि आपको बार प्लाट को चकमा देने से क्या मतलब था। अधिकांश विकल्पों की तरह, वे सममित नहीं हैं कि वे एक आयाम में दूसरे की तुलना में बेहतर आवृत्ति का प्रतिनिधित्व करते हैं। एक अच्छी विशेषता यह है कि सीमांत आवृत्तियों का भी प्रतिनिधित्व किया जाता है।

यहां छवि विवरण दर्ज करें

यहां छवि विवरण दर्ज करें


यह अच्छा है। संख्या और अनुपात दोनों का प्रतिनिधित्व किया जाता है। नंबर भी प्लॉट पर डाले जा सकते हैं। यदि एक्स-एक्सिस आइटम के ऑर्डर की व्यवस्था की जाती है, तो यह और भी अच्छा लगेगा। चकमा दिए जाने से मेरा मतलब था कि एक-दूसरे पर ढेर किए जाने की बजाए, इस पेज पर एक-दूसरे पर ढेर किए जाने की बजाय, आम तौर पर अलग-अलग बारप्लॉट का मतलब होता है (देखें पेज = 'dodge' इस पेज पर: r-bloggers.com/use-r-barplot-with-ggplot2 )।
rnso

1
+1 यह डिज़ाइन अक्सर अपेक्षाकृत सरल डेटा के लिए वास्तव में बहुत अच्छी तरह से काम करता है ; इसके विपरीत, मैंने पाया है कि अधिक जटिल डेटा के बारे में सोचना भी मुश्किल हो जाता है, बावजूद इसके मनमानी आयाम की आकस्मिक तालिकाओं पर साहित्य में बहुत जोर दिया जाता है। फिर भी, ऐसी परिस्थितियों में कोई भी डिज़ाइन अच्छी तरह से काम नहीं करता है। इस उदाहरण के साथ एक छोटी सी बात यह है कि आप अपने कार्यक्रम के अनुसार "दोपहर" ... "दोपहर" को डिफ़ॉल्ट वर्णमाला के क्रम को स्वीकार करते हुए दिखाई देते हैं, जबकि समय क्रम को संरक्षित करना एक अधिक स्वाभाविक विकल्प लगता है।
निक कॉक्स

8

मैं सहमत हूं कि "सर्वश्रेष्ठ" भूखंड डेटासेट, रीडरशिप और उद्देश्य से स्वतंत्र नहीं है। दो मापा चर के लिए, तितर बितर भूखंड निश्चित रूप से डिजाइन है जो विशिष्ट उद्देश्यों को छोड़कर, अन्य सभी को इसके मद्देनजर छोड़ देता है, लेकिन ऐसा कोई बाजार नेता स्पष्ट डेटा के लिए स्पष्ट नहीं है।

यहां मेरा उद्देश्य केवल एक सरल विधि का उल्लेख करना है, जिसे अक्सर फिर से खोजा जाता है या फिर से आविष्कार किया जाता है, लेकिन फिर भी अक्सर सांख्यिकीय ग्राफिक्स को कवर करने वाले मोनोग्राफ या पाठ्यपुस्तकों में भी अनदेखी की जाती है।

उदाहरण पहले, xan द्वारा पोस्ट किए गए समान डेटा को कवर करना:

यहां छवि विवरण दर्ज करें

यदि कोई नाम वांछित है, जैसा कि अक्सर होता है, यह एक twoway barchart है (इस मामले में)। मैं यहां अन्य शब्दों को सूचीबद्ध नहीं करूंगा, सिवाय इसके कि कई बारचार्ट समान स्वाद के साथ एक सामान्य विकल्प है। ("मल्टीपल बारचार्ट" से मेरी छोटी आपत्ति यह है कि "मल्टीपल" बहुत सामान्य स्टैक्ड या साइड-बाय-साइड बार चार्ट्स से इंकार नहीं करता है, जबकि मेरे लिए "ट्वॉए" अधिक स्पष्ट रूप से एक पंक्ति और कॉलम लेआउट का अर्थ है, हालांकि यह बदले में है यह स्पष्ट करने के लिए उदाहरण ले सकते हैं।)

इस तरह के कथानक के लिए प्लसस और मिनस भी सरल हैं, लेकिन मैं कुछ वर्तनी लिखूंगा। जैसा कि मैं इस डिजाइन का शौकीन हूं (जो कम से कम 1930 के दशक में वापस चला जाता है), दूसरों को तेज आलोचनाओं को जोड़ना चाह सकते हैं।

+1। विचार आसानी से समझ में आता है , गैर-तकनीकी समूहों द्वारा भी। बार हाइट्स या बार की लंबाई इस उदाहरण में आवृत्तियों को कूटबद्ध करती है। अन्य उदाहरणों में, वे आपके द्वारा पसंद किए गए किसी भी तरीके, अवशिष्ट आदि की गणना कर सकते हैं।

2। पंक्ति और स्तंभ संरचना एक तालिका से मेल खाती है । आप संख्यात्मक मान भी जोड़ सकते हैं। बहुत कम मात्रा और यहां तक ​​कि निहित शून्य स्पष्ट रूप से स्पष्ट हैं, जो हमेशा अन्य डिजाइनों (जैसे स्टैक्ड बार चार्ट, मोज़ेक प्लॉट) के साथ ऐसा नहीं है। पंक्ति और स्तंभ लेबलिंग आम तौर पर एक कुंजी या किंवदंती को जोड़ने की तुलना में अधिक कुशल है, जिसमें मानसिक "आगे और पीछे" की आवश्यकता होती है। इस प्रकार यह डिजाइन ग्राफ और टेबल विचारों को हाइब्रिड करता है, जो कुछ पाठकों को परेशान करता है; इसके विपरीत, मैं तर्क दूंगा कि आंकड़े और तालिकाओं के बीच मजबूत अंतर सिर्फ ऐतिहासिक हैंग ओवर हैं, अब अप्रचलित है कि शोधकर्ता अपने स्वयं के दस्तावेज तैयार कर सकते हैं और डिजाइनरों, कंपोजिटर्स और प्रिंटर पर भरोसा नहीं करना है।

+3। सिद्धांत में तीन-तरफ़ा और उच्चतर डिज़ाइन के विस्तार आसान हैं । दो या अधिक चर को या तो दोनों अक्षों पर मिश्रित चर के रूप में रखें, या ऐसे भूखंडों की एक सरणी दें। स्वाभाविक रूप से, डिजाइन जितना जटिल होगा, व्याख्या उतनी ही जटिल होगी।

4। डिजाइन स्पष्ट रूप से या तो अक्ष पर क्रमिक चर की अनुमति देता है। ऑर्डर को उचित शेडिंग के साथ-साथ उस अक्ष पर श्रेणियों के क्रम द्वारा व्यक्त किया जा सकता है। कुल्हाड़ियों पर श्रेणी क्रम उनके अर्थ द्वारा निर्धारित किया जा सकता है, या आवृत्तियों द्वारा बेहतर रूप से निर्धारित किया जा सकता है; टेक्स्ट लेबल के अनुसार वर्णानुक्रम क्रम एक डिफ़ॉल्ट हो सकता है, लेकिन कभी भी एकमात्र विकल्प नहीं माना जाना चाहिए।

-1। डिजाइन में सामान्य होने से कथानक कुछ प्रकार के संबंधों को दिखाने में कम कुशल हो सकता है । विशेष रूप से, एक मोज़ेक साजिश स्वतंत्रता से प्रस्थान को बहुत स्पष्ट कर सकती है। इसके विपरीत, जब श्रेणीबद्ध चर के बीच संबंध जटिल या अस्पष्ट होते हैं, तो आमतौर पर कोई भी ग्राफ उस कमजोर तथ्य से अधिक दिखाने में अच्छा नहीं होता है।

-2। कुछ मायनों में डिजाइन हर जगह क्रॉस-कॉम्बिनेशन के लिए जगह छोड़ कर स्पेस के इस्तेमाल में अक्षम है चाहे वह कितनी भी बार हो या न हो। यह एक ही सिद्धांत के पुण्य के रूप में माना जाता है। रिक्त स्थान श्रेणियों के ऊपर विशेष रूप से डिजाइन उनकी आवृत्ति की परवाह किए बिना समान रूप से; उस त्याग को अक्सर पठनीय सीमांत लेबल बलिदान करते हैं, जिसका मैं बहुत महत्व देता हूं। इस उदाहरण में, टेक्स्ट लेबल सभी बहुत कम होते हैं, लेकिन यह विशिष्ट से बहुत दूर है।

नोट: ज़ान के डेटा का आविष्कार किया जाना प्रतीत होता है, इसलिए मैं अन्य उत्तरों में किए गए प्रयास से अधिक व्याख्या की कोशिश नहीं करूंगा। लेकिन कुछ होमस्पून ज्ञान यहां अंतिम शब्द के हकदार हैं: आपके लिए सबसे अच्छा डिजाइन वह है जो आपको और आपके पाठकों को कुछ वास्तविक डेटा की संरचना के बारे में बताता है, जिनकी आप परवाह करते हैं।

अन्य उदाहरणों में शामिल हैं

आप 3 श्रेणीबद्ध चर के बीच संबंध की कल्पना कैसे कर सकते हैं?

दो क्रमिक चर के बीच संबंध के लिए ग्राफ


1
एक और व्यवहार्य विकल्प और कुछ महान चर्चा के लिए +1। मुझे दो-तरफा बारचर के बारे में एक प्रश्न पूछें / एक और संभावित नकारात्मक पक्ष की ओर संकेत करें: एक अचिह्नित है, लेकिन स्पष्ट रूप से विचार करने योग्य 'बॉक्स' है जिसके भीतर सलाखों को प्लॉट किया जा सकता है। जैसे ही बार बॉक्स के शीर्ष पर पहुंचता है, यह 100% तक पहुंच जाता है। वह मूल्य कैसे निर्धारित किया जाता है? (एनबी, आकस्मिक तालिकाओं को हमेशा कुछ अर्थों में बहुराष्ट्रीय होता है, डब्ल्यू / एक ज्ञात कुल।) बॉक्स पंक्ति के शीर्ष को जोड़कर या कॉलम रकम अलग अवधारणात्मक निष्कर्षों को बढ़ावा देगी। (ऐसा लगता नहीं है कि मेज राशि, प्रयोग किया जाता है के रूप में कई बार अंतर करने के लिए बहुत छोटा हो जाएगा।)
को पुनः स्थापित मोनिका - गुंग

1
@ शुंग धन्यवाद। मैं अपने स्वयं के स्टैटा कार्यक्रम पर टिप्पणी कर सकता हूं, जिसका उपयोग यहां और मेरे उदाहरणों में सीवी में कहीं और किया गया है। कार्यक्रम tabplotएसएससी का है। सलाखों की ऊंचाई आवश्यक रूप से सबसे ऊंची या सबसे लंबी पट्टी की ऊंचाई का कुछ अंश है; इसके लिए उपलब्ध स्थान यह निर्धारित करता है कि कितनी पंक्तियों को दिखाया जा रहा है। उपयोगकर्ता डिफॉल्ट गैप साइज को ओवरराइड कर सकता है, लेकिन फिर एक-दूसरे को छूने या ठगने वाले बार को जोखिम में डालता है। यदि बार नकारात्मक होने के साथ-साथ सकारात्मक भी हो सकते हैं, तो चीजें आसान नहीं होती हैं। मुझे लगता है कि एक ही बाधा किसी अन्य कार्यक्रम के साथ काटती है। संक्षेप में, सलाखों को छूने का मतलब सफेद जगह नहीं है!
निक कॉक्स

8

@ गंग के और @ ज़ान के उत्तरों के पूरक के लिए, यहां vcdआर में उपयोग किए गए मोज़ेक और एसोसिएशन प्लॉट का एक उदाहरण है।

> tab
        period
activity morning noon afternoon evening
  feed        28    4         0      56
  social      38    5         9      10
  travel       6    6        14      13

भूखंड प्राप्त करने के लिए:

require(vcd)
mosaic(tab, shade=T, legend=T)
assoc(tab, shade=T, legend=T)

यहां छवि विवरण दर्ज करें

यहां छवि विवरण दर्ज करें

दोनों सहज रूप से अपेक्षित आवृत्तियों से प्रस्थान करते हैं ... डिफ़ॉल्ट पारस्परिक स्वतंत्रता का मॉडल है , लेकिन इसे तर्क के माध्यम से बदला जा सकता है (जैसे संयुक्त स्वतंत्रता के लिए एक स्पष्ट प्रतिक्रिया चर) expected

यह भी देखें:

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.