भूखंड तैयार करते समय मुझे किन सर्वोत्तम प्रथाओं का पालन करना चाहिए?


40

प्लॉट्स तैयार करते समय मैं आमतौर पर अपनी खुद की पहचान बनाता हूं। हालांकि, मुझे आश्चर्य है कि क्या भूखंडों के निर्माण के लिए कोई सर्वोत्तम प्रथाएं हैं।

नोट: इस सवाल के जवाब के लिए रॉब की टिप्पणी यहां बहुत प्रासंगिक है।

जवाबों:


23

प्लॉट तैयार करते समय टफेट के सिद्धांत बहुत अच्छे हैं। उनकी किताब ब्यूटीफुल एविडेंस भी देखें

सिद्धांतों में शामिल हैं:

  • एक उच्च डेटा-स्याही अनुपात रखें
  • चार्ट जंक निकालें
  • चित्रमय तत्व को कई कार्य दें
  • डेटा घनत्व को ध्यान में रखें

शब्द खोज के लिए सूचना दृश्य है


4
क्वांटिटेटिव इंफॉर्मेशन की टफ्टे का विजुअल डिस्प्ले ( amazon.com/o/ASIN/0961392142/ref=nosim/gettgenedone-20 ) ब्यूटीफुल एविडेंस IMO से बेहतर है। उनकी सभी चार पुस्तकें हालांकि अच्छी हैं, और यदि आपके पास उनके किसी पाठ्यक्रम में भाग लेने का अवसर है, तो इसे करें।
स्टीफन टर्नर

5
मैं सबसे ज्यादा इस बात से सहमत हूं कि तुफेट क्या कहता है, लेकिन मुझे कहना होगा कि उसका कम डेटा: इंक बॉक्सप्लेट सिर्फ सादा मूर्खतापूर्ण है। मुझे लगता है कि वे मुझे मानक बॉक्सप्लॉट्स की तुलना में 3-4 गुना अधिक समय लेते हैं। आर डिफॉल्ट बहुत बेहतर हैं (हालांकि पूंछ के छोर पर लाइनें अनावश्यक हैं)। पारंपरिक बॉक्सप्लॉट में अतिरिक्त लाभ है कि वे नमूना आकार (चौड़ाई के साथ), और मानक विचलन (notches के साथ) का प्रतिनिधित्व कर सकते हैं।
naught101

2
+1 @ naught101 कुछ अन्य लोगों ने इस पर अपनी राय साझा की SO: stackoverflow.com/questions/6973394/…
बेन

15

हम पूरे दिन यहां सर्वोत्तम प्रथाओं को दर्शाते हुए रह सकते हैं, लेकिन आपको टफ्टे को पढ़ना शुरू करना चाहिए। मेरी प्राथमिक सिफारिश:

इसे सरल रखें।

अक्सर लोग अपने चार्ट को जानकारी के साथ लोड करने की कोशिश करते हैं। लेकिन आपको वास्तव में सिर्फ एक मुख्य विचार होना चाहिए जिसे आप संप्रेषित करने की कोशिश कर रहे हैं और यदि किसी को आपका संदेश लगभग तुरंत नहीं मिलता है, तो आपको यह पुनर्विचार करना चाहिए कि आपने इसे कैसे प्रस्तुत किया है। इसलिए अपने चार्ट पर तब तक काम करना शुरू न करें जब तक कि संदेश स्वयं स्पष्ट न हो जाए। ओकाम का रेजर यहां भी लागू होता है।


1
मैं इस बिंदु के बहुमत से सहमत हूं, लेकिन मुझे लगता है कि "इसे सरल रखें।" अस्पष्ट हो सकता है। आपका मुख्य मुद्दा यह है कि आपको पता होना चाहिए कि आप चार्ट को क्या बताना चाहते हैं। "इसे सरल रखें।" कुछ अन्य विचारों को लाता है, जैसे "डेटा: इंक अनुपात अधिक होना चाहिए।", जिसे टफ्टे प्रोत्साहित करते हैं, और "तीन से अधिक चर नहीं पेश करते हैं।", जो टफ्टे को हतोत्साहित करता है।
थॉमस लेविन

स्पष्ट रूप से यह सलाह विपरीत से काफी बेहतर है। लेकिन ऐसी परिस्थितियां हैं जिनमें एक ग्राफ आवश्यक रूप से जटिल है और विस्तृत, सावधान, विचारशील अध्ययन की आवश्यकता है। लेकिन जटिलता को यथासंभव सरल होना चाहिए। उदाहरण के लिए, 5 x 5 मैट्रिक्स में 25 भूखंडों को लंबे समय तक अध्ययन की आवश्यकता हो सकती है, लेकिन यह विचार कि प्रत्येक डेटा में से कुछ दिखाता है, अपेक्षाकृत आसान है।
निक कॉक्स

12

अंगूठे का एक नियम जिसका मैं हमेशा पालन नहीं करता हूं, लेकिन जो अवसर पर उपयोगी होता है, उस पर ध्यान देना है कि यह संभावना है कि आपका प्लॉट उसके भविष्य में किसी बिंदु पर होगा

  • फैक्स द्वारा भेजा गया,
  • फोटोकॉपी, और / या
  • काले और सफेद में पुन: पेश किया गया।

आपको अपने भूखंडों को पर्याप्त रूप से आज़माने और स्पष्ट करने की आवश्यकता है कि भले ही वे भविष्य में अभेद्य रूप से पुन: पेश किए जाते हैं, लेकिन साजिश को संप्रेषित करने की जानकारी अभी भी सुपाठ्य है।


14
मुझे लगता है कि आपको अतीत में किसी बिंदु पर फैक्स द्वारा भेजा गया था ;)
हैडली

इसके लिए +1। आपका सेमिनल प्लॉट, आपके पेपर का दिल, बिलकुल अनजाना नहीं होना चाहिए क्योंकि मैंने इसे छाप दिया है।
फोमाइट

यह उत्तर एक समान समस्या का समाधान करता है।
n

8

एक स्पष्ट संदेश देने के अलावा, मैं हमेशा प्लॉट्समैनशिप को याद रखने की कोशिश करता हूं:

  • लेबल और किंवदंतियों के लिए फ़ॉन्ट आकार काफी बड़ा होना चाहिए, अधिमानतः एक ही फ़ॉन्ट आकार और अंतिम प्रकाशन में उपयोग किया जाने वाला फ़ॉन्ट।
  • linewidths काफी बड़ा होना चाहिए (1 pt लाइनें गायब हो जाती हैं यदि भूखंड केवल थोड़े से सिकुड़ जाते हैं)। मैं 3 से 5 पीटी के लिनिविथ्स पर जाने की कोशिश करता हूं।
  • यदि रंग के साथ कई डेटासेट / कर्व की साजिश हो रही है, तो सुनिश्चित करें कि उन्हें समझा जा सकता है कि क्या काले और सफेद रंग में मुद्रित किया गया है, जैसे कि रंग के अलावा विभिन्न प्रतीकों या वंशावली का उपयोग करके।
  • हमेशा दोषरहित (या दोषरहित के करीब) प्रारूप का उपयोग करें, जैसे कि पीडीएफ, पीएस या एसवीजी या उच्च रिज़ॉल्यूशन पीएनजी या जीआईएफ (जेपीईजी बिल्कुल भी काम नहीं करता है और कभी लाइन आर्ट के लिए डिज़ाइन नहीं किया गया था) जैसे वेक्टर प्रारूप।
  • प्रकाशन में उपयोग किए जाने वाले अंतिम पहलू अनुपात में ग्राफिक्स तैयार करें। पहलू अनुपात को बाद में बदलने से चिड़चिड़ा फ़ॉन्ट या प्रतीक आकृतियाँ मिल सकती हैं।
  • हमेशा अनुपयोगी हिस्टोग्राम जानकारी, ट्रेंड लाइन्स (शायद ही उपयोगी) या डिफ़ॉल्ट शीर्षक जैसे प्लॉटिंग प्रोग्राम से बेकार अव्यवस्था को हटा दें।

मैंने अपने प्लॉटिंग सॉफ़्टवेयर (matplotlib, ROOT या root2matplotlib) को इस अधिकार के साथ डिफ़ॉल्ट रूप से करने के लिए कॉन्फ़िगर किया है। इससे पहले कि मैं gnuplotयहां उपयोग कर रहा था जिसे यहां अतिरिक्त देखभाल की जरूरत थी।


8

भौतिकी क्षेत्र में एक नियम है कि पूरे कागज / रिपोर्ट को केवल प्लॉट पर त्वरित नज़र से समझा जाना चाहिए। इसलिए मैं मुख्य रूप से सलाह दूंगा कि उन्हें आत्म-व्याख्यात्मक होना चाहिए।
इसका अर्थ यह भी है कि आपको हमेशा यह देखना होगा कि आपके दर्शक किसी तरह के कथानक से परिचित हैं या नहीं - मैंने एक बार यह मानते हुए एक बड़ी गलती की थी कि प्रत्येक वैज्ञानिक जानता है कि बॉक्सप्लाट क्या हैं, और फिर उसे समझाने में एक घंटा बर्बाद हो गया।


बॉक्स प्लॉट अनुभव पर सहानुभूति, लेकिन इसका तात्पर्य यह है कि अपेक्षाकृत सरल रूप (जैसे कि माध्यिका, चतुर्थांश, 5% और 95% अंक और सभी डेटा बिंदुओं को दिखाते हुए) का उपयोग किया जाता है, बजाय इसके कि शंकु पर आधारित कुछ भी दिखाया जाए। 1.5 IQR; (b) एक कैप्शन जोड़कर सम्मेलनों को स्पष्ट करना।
निक कॉक्स

6

यहाँ मेरे दिशानिर्देश हैं, सबसे आम त्रुटियों के आधार पर जो मैं देख रहा हूँ (अन्य सभी अच्छे बिंदुओं के अलावा)

  • यदि तत्व आदेश प्रासंगिक नहीं है, तो बिखरे रेखांकन का उपयोग करें, रेखा के भूखंडों का नहीं।
  • जब उन भूखंडों की तैयारी की जाती है जिनकी तुलना की जाती है, तो उन सभी के लिए समान पैमाने के कारक का उपयोग करें।
  • इससे भी बेहतर - एकल ग्राफ में डेटा को संयोजित करने का एक तरीका ढूंढें (जैसे: बड़ी संख्या में वितरण की तुलना करने के लिए बॉक्सप्लॉट कई हिस्टोग्राम से बेहतर हैं)।
  • इकाइयों को निर्दिष्ट करने के लिए मत भूलना
  • केवल एक किंवदंती का उपयोग करें यदि आपको चाहिए - यह आमतौर पर सीधे घटता लेबल करने के लिए स्पष्ट है।
  • यदि आपको एक किंवदंती का उपयोग करना चाहिए, तो इसे खाली क्षेत्र में, भूखंड के अंदर ले जाएं।
  • रेखा रेखांकन के लिए, एक ऐसे अनुपात के लिए लक्ष्य बनाएं जो पृष्ठ के साथ लगभग 45o पर पंक्तियों की पैदावार करता है ।

"बड़ी मात्रा में वितरण की तुलना करने के लिए बॉक्सप्लॉट कई हिस्टोग्राम से बेहतर हैं" - यह केवल तभी सच है जब आपका डेटा अनिमॉडल है, और इसमें कर्टोसिस या कुछ अन्य विशेषताएं नहीं हैं जो कि बॉक्सप्लाट्स द्वारा कैप्चर नहीं की जा सकती हैं ..
n

6

R ग्राफ़िक्स लाइब्रेरी, ggplot2 पर एक नज़र डालें। विवरण वेब पेज http://had.co.nz/ggplot2/ पर हैं। यह पैकेज बहुत अच्छे डिफ़ॉल्ट प्लॉटों का निर्माण करता है, जो टफटे सिद्धांतों, क्लीवलैंड के दिशानिर्देशों और इहाका के रंग पैकेज का पालन करते हैं।


6

यदि रंग में प्लॉटिंग करते हैं, तो विचार करें कि कलरब्लिंड लोगों को अकेले रंग द्वारा तत्वों को भेद करने में परेशानी हो सकती है। इसलिए:

  • लाइनों को भेद करने के लिए लाइन शैलियों का उपयोग करें।
  • तत्वों में अतिरिक्त वजन का उपयोग करें, कम से कम 2 पीटी आदि लिनिविड बनाएं।
  • बिंदुओं को अलग करने के लिए अलग-अलग मार्कर के साथ-साथ रंगों का उपयोग करें।
  • स्थिति और शैली का भी उल्लेख करते हुए लेबल और एनोटेशन का उपयोग करें।
  • पाठ में प्लॉट तत्वों का उल्लेख करते समय, उन्हें रंग, सापेक्ष स्थिति और शैली द्वारा वर्णित करें: "लाल, ऊपरी, डैश-डॉट वक्र"
  • एक colorblind अनुकूल पैलेट का उपयोग करें। Http://www.vischeck.com/vischeck/ , http://jfly.iam.u-tokyo.ac.jp/color/#pallet देखें । मैं code.google.com पर अंतिम संदर्भ में पैलेट का एक साधारण पायथन कार्यान्वयन है, अजगर-कॉडटूल देखें

इस तथ्य पर भी विचार करें कि किसी व्यक्ति को इसे ग्रेस्केल प्रिंटर पर प्रिंट करना पड़ सकता है। मैंने पहले भी ऐसा किया है - मैंने एक असाइनमेंट के लिए ggplot2 डिफ़ॉल्ट रंगों (जो एक स्क्रीन पर बहुत अच्छा दिखता है) का उपयोग किया, जिसे मैंने तब काले और सफेद रंग में प्रिंट किया था, और आधे रंगों को दूसरों से अलग नहीं किया जा सकता था! * ब्लश *
naught101

4

ये अद्भुत सुझाव हैं। हमने http://biostat.mc.vanderbilt.edu/StatGraphCourse पर बहुत सारी सामग्री इकट्ठी की है । फार्मा उद्योग, शिक्षाविद और एफडीए में सांख्यिकीविदों का एक समूह एक संसाधन भी बना रहा है जो नैदानिक ​​परीक्षणों और संबंधित अनुसंधान के लिए बहुत उपयोगी होगा। एक महीने में बहुत सी नई सामग्रियों का अनावरण किया जाएगा लेकिन बहुत कुछ पहले से ही है - http://www.ctspedia.org/do/view/CSpedia/PageOneStatGraph

विलियम क्लीवलैंड द्वारा मेरी व्यक्तिगत पसंदीदा ग्राफिक्स पुस्तक तत्वों की रेखांकन डेटा है।

सॉफ्टवेयर के संदर्भ में, मेरी राय में आर के ggplot2 और जाली पैकेज को हरा पाना कठिन है। स्टैटा कुछ उत्कृष्ट ग्राफिक्स का भी समर्थन करता है।


3

यह इस बात पर भी निर्भर करता है कि आप अपने भूखंडों को कहां प्रकाशित करना चाहते हैं। किसी पत्रिका के लिए कोई भी प्लॉट बनाने से पहले आप लेखकों के लिए मार्गदर्शक से सलाह लेकर खुद को बहुत परेशानी से बचा लेंगे।

प्लॉट को एक प्रारूप में भी सहेजें जो आपके द्वारा बनाए गए कोड को संशोधित या सहेजना आसान है। संभावना है कि आपको सुधार करने की आवश्यकता है।



2

अन्य उत्तर भी आश्वस्त करने के लिए बहुत ही फार्मूलाबद्ध हैं, इसलिए मुझे अधिक सामान्य उत्तर देने दें। मैं कुछ समय के लिए इस सवाल से जूझ चुका हूं। मैं इस प्रक्रिया की पेशकश करता हूं:

  1. अपना संदेश जानिए
  2. अपने दर्शकों को जानें
  3. अपनी बाधाओं को जानें
  4. अपने दर्शकों के लिए अपने संदेश दर्जी अपने बाधाओं दिया

मुझे कंबल के दावों पर संदेह है जैसे कि "इसे सरल रखें" - इसका क्या मतलब है? खैर, यह दर्शकों पर निर्भर करता है। कुछ दर्शक टफ शैली को खा जाएंगे। लेकिन कुछ दर्शक अब और फिर थोड़ा चार्ट कबाड़ की सराहना करते हैं। कुछ लोग बिखराव से ऊब गए हैं। कुछ लोग रंगीन पृष्ठभूमि पसंद करते हैं। यदि आप "सौंदर्यवादी" पवित्रता से समझौता करते हैं, तो उन्हें थोड़ा सा उलझा देना कितना गलत है? यह आपको तय करना है।

आपके दर्शकों की प्रतिक्रिया एक महत्वपूर्ण प्रतिक्रिया होगी, लेकिन केवल एक ही नहीं। यदि आपको अपनी प्रस्तुति से पहले और बाद में उनकी समझ को मापने का कोई तरीका मिल जाता है , तो आप अपने द्वारा किए गए प्रभाव को समझने लगेंगे।

"सही" उत्तर इस प्रकार के प्रश्नों पर निर्भर करेगा:

  • आप किस मीडिया का उपयोग कर रहे हैं?

  • क्या आप स्टैटिक या इंटरएक्टिव प्लॉट बना रहे हैं?

  • क्या आप पूर्व-परिभाषित कहानी (एक्सपोज़र) बताने या प्रयोग (अन्वेषण) को प्रोत्साहित करने की कोशिश कर रहे हैं?

  • आप किस हद तक दर्शकों को अपना निष्कर्ष निकालना चाहते हैं?

  • किस हद तक आप चाहते हैं कि दर्शकों को आपकी कहानी के साथ-साथ पालन करना चाहिए?

  • आप किस हद तक दर्शकों को अपने निष्कर्षों को चुनौती देना चाहते हैं?

सारांश में, डिजाइन अपनी सामग्री जानबूझ कर अपने संदेश, दर्शकों, और बाधाओं को देखते हुए।


"व्यस्त", या विचलित? रंग ठीक हो सकता है, लेकिन आप अंततः यहां डेटा के बारे में हैं, और सौंदर्यशास्त्र को डेटा की सेवा करनी चाहिए, न कि दूसरे तरीके से।
n

2

एक बात जो मुझे टफ्टे का उल्लेख करते हुए याद आती है, वह यह है कि अन्य उत्तरों में मैपिंग नहीं है - यानी आपके ग्राफ पर स्थिति, दिशा, आकार आदि को वास्तविकता का प्रतिनिधित्व करते हैं । ग्राफ पर क्या है वास्तविक दुनिया में ऊपर होना चाहिए। जो बड़ा है वह बड़ा होना चाहिए (यह ध्यान में रखते हुए कि क्षेत्रों को क्षेत्रों का प्रतिनिधित्व करना चाहिए, और वॉल्यूम का वॉल्यूम। कभी किसी क्षेत्र द्वारा स्केलर मान का प्रतिनिधित्व करने की कोशिश न करें, यह बहुत अस्पष्ट है!)। यह रंग, आकार, आदि पर भी लागू होता है, यदि वे प्रासंगिक हैं।

एक दिलचस्प उदाहरण "स्कर्ट श्रृंखला" ग्राफ यहां है: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html । जबकि तकनीकी रूप से यह सही है, और "लंबा" स्कर्ट की लंबाई ग्राफ पर एक उच्च स्थान रखती है, यह वास्तव में काफी भ्रामक है, क्योंकि स्कर्ट की लंबाई ऊपर से शुरू होती है , और नीचे जाती है (मनुष्यों, या पेड़ों के विपरीत, जहां हम ऊंचाई को मापते हैं। जमीन)। इतनी बढ़ी हुई स्कर्ट की लंबाई वास्तव में कम मूल्य का प्रतिनिधित्व करती है :

skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))

यहाँ छवि विवरण दर्ज करें

हमेशा की तरह, कठिनाइयाँ हैं। उदाहरण के लिए, हम आमतौर पर आगे बढ़ने के लिए समय पर विचार करते हैं, और पश्चिम में, कम से कम, हम बाएं से दाएं पढ़ते हैं, इसलिए समय बढ़ने के साथ-साथ हमारे समय-श्रृंखला के ग्राफ भी आमतौर पर दाएं से बाएं घूमते हैं। तो क्या होता है यदि आप किसी ऐसी चीज़ का प्रतिनिधित्व करना चाहते हैं जो समय के साथ बाद में सबसे अच्छी तरह से प्रतिनिधित्व करती है (जैसे पूर्व-पश्चिम माप कुछ)? उस स्थिति में, आपको समझौता करना होगा, और या तो समय को ऊपर या नीचे ले जाना होगा (जो कि सांस्कृतिक धारणाओं पर फिर से निर्भर करता है, मुझे लगता है), या अपने ग्राफ़ पर अपने पार्श्व चर को मैप करने के लिए चुनें।


1
समय / स्थान के लिए व्यापार बंद होने का एक उदाहरण है, मेकिंग मैप्स (महत्वपूर्ण चर्चा और यहां दिए गए उदाहरण ।
एंडी डब्ल्यू

अच्छा (भयानक) उदाहरण! नक्शे एक और, अधिक कठिन व्यापार को बंद करते हैं: एक दो आयामी पृष्ठ पर 2 आयामों + समय का प्रतिनिधित्व करने की कोशिश करना (जैसे महाद्वीपीय बहाव के नक्शे)। बहुत मुश्किल। लेकिन मुझे लगता है कि एनिमेशन क्या हैं :)
n

आपके बताए उदाहरण से दो अतिरिक्त बिंदुओं का उल्लेख होता है जो अक्सर उत्पन्न होते हैं। 1. समय की धुरी के साथ, "तिमे" जैसा शीर्षक या लेबल आमतौर पर बेमानी होता है। 2. टाइटल या लेबल जैसे "स्कर्ट" को हमेशा उपयुक्त होने पर माप की इकाइयों सहित एक हलकी लेकिन सूचनात्मक व्याख्या के साथ बेहतर बनाया जा सकता है।
निक कॉक्स

1

यह उस तरीके पर निर्भर करता है जिसमें भूखंडों पर चर्चा की जाएगी।

उदाहरण के लिए, यदि मैं एक समूह बैठक के लिए भूखंड भेज रहा हूं जो विभिन्न स्थानों से कॉल करने वालों के साथ किया जाएगा, तो मैं उन्हें एक्पेल के विपरीत पावरपॉइंट में एक साथ रखना पसंद करता हूं, इसलिए चारों ओर फ्लिप करना आसान है।

एक-पर-एक तकनीकी कॉल के लिए, मैं एक्सेल में कुछ डालूंगा ताकि ग्राहक एक भूखंड को अलग करने में सक्षम हो, और कच्चे डेटा को देख सके। या, मैं पक्ष प्रतिगमन गुणांक के साथ कोशिकाओं में पी-मान दर्ज कर सकता हूं, जैसे

ध्यान रखें: प्लॉट सस्ते होते हैं, खासकर स्लाइड शो के लिए, या किसी समूह को ईमेल करने के लिए। बल्कि मैं 10 स्पष्ट भूखंड बनाऊंगा जिन्हें हम 5 प्लॉटों के माध्यम से फ्लिप कर सकते हैं जहां मैं एक ही ग्राफ पर अलग-अलग कॉहर्ट्स (जैसे "नर और मादा") डालने की कोशिश करता हूं।


1

मैं यह जोड़ना चाहूंगा कि डेटा का विश्लेषण करने के लिए प्लॉट का चुनाव सांख्यिकीय परीक्षण के प्रकार को प्रतिबिंबित करना चाहिए। दूसरे शब्दों में, विश्लेषण के लिए डेटा की जो भी विशेषताओं का उपयोग किया गया था, उसे नेत्रहीन रूप से दिखाया जाना चाहिए - इसलिए यदि आप एक टी-टेस्ट लेकिन बॉक्सप्लाट का उपयोग करते हैं, तो आप साधन और मानक त्रुटियों को दिखाते हैं यदि आपने मान-व्हिटनी परीक्षण का उपयोग किया है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.