प्लॉट्स तैयार करते समय मैं आमतौर पर अपनी खुद की पहचान बनाता हूं। हालांकि, मुझे आश्चर्य है कि क्या भूखंडों के निर्माण के लिए कोई सर्वोत्तम प्रथाएं हैं।
नोट: इस सवाल के जवाब के लिए रॉब की टिप्पणी यहां बहुत प्रासंगिक है।
प्लॉट्स तैयार करते समय मैं आमतौर पर अपनी खुद की पहचान बनाता हूं। हालांकि, मुझे आश्चर्य है कि क्या भूखंडों के निर्माण के लिए कोई सर्वोत्तम प्रथाएं हैं।
नोट: इस सवाल के जवाब के लिए रॉब की टिप्पणी यहां बहुत प्रासंगिक है।
जवाबों:
प्लॉट तैयार करते समय टफेट के सिद्धांत बहुत अच्छे हैं। उनकी किताब ब्यूटीफुल एविडेंस भी देखें
सिद्धांतों में शामिल हैं:
शब्द खोज के लिए सूचना दृश्य है
SO
: stackoverflow.com/questions/6973394/…
हम पूरे दिन यहां सर्वोत्तम प्रथाओं को दर्शाते हुए रह सकते हैं, लेकिन आपको टफ्टे को पढ़ना शुरू करना चाहिए। मेरी प्राथमिक सिफारिश:
इसे सरल रखें।
अक्सर लोग अपने चार्ट को जानकारी के साथ लोड करने की कोशिश करते हैं। लेकिन आपको वास्तव में सिर्फ एक मुख्य विचार होना चाहिए जिसे आप संप्रेषित करने की कोशिश कर रहे हैं और यदि किसी को आपका संदेश लगभग तुरंत नहीं मिलता है, तो आपको यह पुनर्विचार करना चाहिए कि आपने इसे कैसे प्रस्तुत किया है। इसलिए अपने चार्ट पर तब तक काम करना शुरू न करें जब तक कि संदेश स्वयं स्पष्ट न हो जाए। ओकाम का रेजर यहां भी लागू होता है।
अंगूठे का एक नियम जिसका मैं हमेशा पालन नहीं करता हूं, लेकिन जो अवसर पर उपयोगी होता है, उस पर ध्यान देना है कि यह संभावना है कि आपका प्लॉट उसके भविष्य में किसी बिंदु पर होगा
आपको अपने भूखंडों को पर्याप्त रूप से आज़माने और स्पष्ट करने की आवश्यकता है कि भले ही वे भविष्य में अभेद्य रूप से पुन: पेश किए जाते हैं, लेकिन साजिश को संप्रेषित करने की जानकारी अभी भी सुपाठ्य है।
एक स्पष्ट संदेश देने के अलावा, मैं हमेशा प्लॉट्समैनशिप को याद रखने की कोशिश करता हूं:
मैंने अपने प्लॉटिंग सॉफ़्टवेयर (matplotlib, ROOT या root2matplotlib) को इस अधिकार के साथ डिफ़ॉल्ट रूप से करने के लिए कॉन्फ़िगर किया है। इससे पहले कि मैं gnuplot
यहां उपयोग कर रहा था जिसे यहां अतिरिक्त देखभाल की जरूरत थी।
भौतिकी क्षेत्र में एक नियम है कि पूरे कागज / रिपोर्ट को केवल प्लॉट पर त्वरित नज़र से समझा जाना चाहिए। इसलिए मैं मुख्य रूप से सलाह दूंगा कि उन्हें आत्म-व्याख्यात्मक होना चाहिए।
इसका अर्थ यह भी है कि आपको हमेशा यह देखना होगा कि आपके दर्शक किसी तरह के कथानक से परिचित हैं या नहीं - मैंने एक बार यह मानते हुए एक बड़ी गलती की थी कि प्रत्येक वैज्ञानिक जानता है कि बॉक्सप्लाट क्या हैं, और फिर उसे समझाने में एक घंटा बर्बाद हो गया।
यहाँ मेरे दिशानिर्देश हैं, सबसे आम त्रुटियों के आधार पर जो मैं देख रहा हूँ (अन्य सभी अच्छे बिंदुओं के अलावा)
R ग्राफ़िक्स लाइब्रेरी, ggplot2 पर एक नज़र डालें। विवरण वेब पेज http://had.co.nz/ggplot2/ पर हैं। यह पैकेज बहुत अच्छे डिफ़ॉल्ट प्लॉटों का निर्माण करता है, जो टफटे सिद्धांतों, क्लीवलैंड के दिशानिर्देशों और इहाका के रंग पैकेज का पालन करते हैं।
यदि रंग में प्लॉटिंग करते हैं, तो विचार करें कि कलरब्लिंड लोगों को अकेले रंग द्वारा तत्वों को भेद करने में परेशानी हो सकती है। इसलिए:
ये अद्भुत सुझाव हैं। हमने http://biostat.mc.vanderbilt.edu/StatGraphCourse पर बहुत सारी सामग्री इकट्ठी की है । फार्मा उद्योग, शिक्षाविद और एफडीए में सांख्यिकीविदों का एक समूह एक संसाधन भी बना रहा है जो नैदानिक परीक्षणों और संबंधित अनुसंधान के लिए बहुत उपयोगी होगा। एक महीने में बहुत सी नई सामग्रियों का अनावरण किया जाएगा लेकिन बहुत कुछ पहले से ही है - http://www.ctspedia.org/do/view/CSpedia/PageOneStatGraph
विलियम क्लीवलैंड द्वारा मेरी व्यक्तिगत पसंदीदा ग्राफिक्स पुस्तक तत्वों की रेखांकन डेटा है।
सॉफ्टवेयर के संदर्भ में, मेरी राय में आर के ggplot2 और जाली पैकेज को हरा पाना कठिन है। स्टैटा कुछ उत्कृष्ट ग्राफिक्स का भी समर्थन करता है।
यह इस बात पर भी निर्भर करता है कि आप अपने भूखंडों को कहां प्रकाशित करना चाहते हैं। किसी पत्रिका के लिए कोई भी प्लॉट बनाने से पहले आप लेखकों के लिए मार्गदर्शक से सलाह लेकर खुद को बहुत परेशानी से बचा लेंगे।
प्लॉट को एक प्रारूप में भी सहेजें जो आपके द्वारा बनाए गए कोड को संशोधित या सहेजना आसान है। संभावना है कि आपको सुधार करने की आवश्यकता है।
डायनामाइट भूखंडों का उपयोग न करें: http://pablomarin-garcia.blogspot.com/2010/02/why-dynamite-plots-are-bad.html , वायलिन भूखंड या इसी तरह के (बॉक्सप्लॉट्स परिवार) का उपयोग करें
अन्य उत्तर भी आश्वस्त करने के लिए बहुत ही फार्मूलाबद्ध हैं, इसलिए मुझे अधिक सामान्य उत्तर देने दें। मैं कुछ समय के लिए इस सवाल से जूझ चुका हूं। मैं इस प्रक्रिया की पेशकश करता हूं:
मुझे कंबल के दावों पर संदेह है जैसे कि "इसे सरल रखें" - इसका क्या मतलब है? खैर, यह दर्शकों पर निर्भर करता है। कुछ दर्शक टफ शैली को खा जाएंगे। लेकिन कुछ दर्शक अब और फिर थोड़ा चार्ट कबाड़ की सराहना करते हैं। कुछ लोग बिखराव से ऊब गए हैं। कुछ लोग रंगीन पृष्ठभूमि पसंद करते हैं। यदि आप "सौंदर्यवादी" पवित्रता से समझौता करते हैं, तो उन्हें थोड़ा सा उलझा देना कितना गलत है? यह आपको तय करना है।
आपके दर्शकों की प्रतिक्रिया एक महत्वपूर्ण प्रतिक्रिया होगी, लेकिन केवल एक ही नहीं। यदि आपको अपनी प्रस्तुति से पहले और बाद में उनकी समझ को मापने का कोई तरीका मिल जाता है , तो आप अपने द्वारा किए गए प्रभाव को समझने लगेंगे।
"सही" उत्तर इस प्रकार के प्रश्नों पर निर्भर करेगा:
आप किस मीडिया का उपयोग कर रहे हैं?
क्या आप स्टैटिक या इंटरएक्टिव प्लॉट बना रहे हैं?
क्या आप पूर्व-परिभाषित कहानी (एक्सपोज़र) बताने या प्रयोग (अन्वेषण) को प्रोत्साहित करने की कोशिश कर रहे हैं?
आप किस हद तक दर्शकों को अपना निष्कर्ष निकालना चाहते हैं?
किस हद तक आप चाहते हैं कि दर्शकों को आपकी कहानी के साथ-साथ पालन करना चाहिए?
आप किस हद तक दर्शकों को अपने निष्कर्षों को चुनौती देना चाहते हैं?
सारांश में, डिजाइन अपनी सामग्री जानबूझ कर अपने संदेश, दर्शकों, और बाधाओं को देखते हुए।
एक बात जो मुझे टफ्टे का उल्लेख करते हुए याद आती है, वह यह है कि अन्य उत्तरों में मैपिंग नहीं है - यानी आपके ग्राफ पर स्थिति, दिशा, आकार आदि को वास्तविकता का प्रतिनिधित्व करते हैं । ग्राफ पर क्या है वास्तविक दुनिया में ऊपर होना चाहिए। जो बड़ा है वह बड़ा होना चाहिए (यह ध्यान में रखते हुए कि क्षेत्रों को क्षेत्रों का प्रतिनिधित्व करना चाहिए, और वॉल्यूम का वॉल्यूम। कभी किसी क्षेत्र द्वारा स्केलर मान का प्रतिनिधित्व करने की कोशिश न करें, यह बहुत अस्पष्ट है!)। यह रंग, आकार, आदि पर भी लागू होता है, यदि वे प्रासंगिक हैं।
एक दिलचस्प उदाहरण "स्कर्ट श्रृंखला" ग्राफ यहां है: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html । जबकि तकनीकी रूप से यह सही है, और "लंबा" स्कर्ट की लंबाई ग्राफ पर एक उच्च स्थान रखती है, यह वास्तव में काफी भ्रामक है, क्योंकि स्कर्ट की लंबाई ऊपर से शुरू होती है , और नीचे जाती है (मनुष्यों, या पेड़ों के विपरीत, जहां हम ऊंचाई को मापते हैं। जमीन)। इतनी बढ़ी हुई स्कर्ट की लंबाई वास्तव में कम मूल्य का प्रतिनिधित्व करती है :
skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))
हमेशा की तरह, कठिनाइयाँ हैं। उदाहरण के लिए, हम आमतौर पर आगे बढ़ने के लिए समय पर विचार करते हैं, और पश्चिम में, कम से कम, हम बाएं से दाएं पढ़ते हैं, इसलिए समय बढ़ने के साथ-साथ हमारे समय-श्रृंखला के ग्राफ भी आमतौर पर दाएं से बाएं घूमते हैं। तो क्या होता है यदि आप किसी ऐसी चीज़ का प्रतिनिधित्व करना चाहते हैं जो समय के साथ बाद में सबसे अच्छी तरह से प्रतिनिधित्व करती है (जैसे पूर्व-पश्चिम माप कुछ)? उस स्थिति में, आपको समझौता करना होगा, और या तो समय को ऊपर या नीचे ले जाना होगा (जो कि सांस्कृतिक धारणाओं पर फिर से निर्भर करता है, मुझे लगता है), या अपने ग्राफ़ पर अपने पार्श्व चर को मैप करने के लिए चुनें।
यह उस तरीके पर निर्भर करता है जिसमें भूखंडों पर चर्चा की जाएगी।
उदाहरण के लिए, यदि मैं एक समूह बैठक के लिए भूखंड भेज रहा हूं जो विभिन्न स्थानों से कॉल करने वालों के साथ किया जाएगा, तो मैं उन्हें एक्पेल के विपरीत पावरपॉइंट में एक साथ रखना पसंद करता हूं, इसलिए चारों ओर फ्लिप करना आसान है।
एक-पर-एक तकनीकी कॉल के लिए, मैं एक्सेल में कुछ डालूंगा ताकि ग्राहक एक भूखंड को अलग करने में सक्षम हो, और कच्चे डेटा को देख सके। या, मैं पक्ष प्रतिगमन गुणांक के साथ कोशिकाओं में पी-मान दर्ज कर सकता हूं, जैसे
ध्यान रखें: प्लॉट सस्ते होते हैं, खासकर स्लाइड शो के लिए, या किसी समूह को ईमेल करने के लिए। बल्कि मैं 10 स्पष्ट भूखंड बनाऊंगा जिन्हें हम 5 प्लॉटों के माध्यम से फ्लिप कर सकते हैं जहां मैं एक ही ग्राफ पर अलग-अलग कॉहर्ट्स (जैसे "नर और मादा") डालने की कोशिश करता हूं।
मैं यह जोड़ना चाहूंगा कि डेटा का विश्लेषण करने के लिए प्लॉट का चुनाव सांख्यिकीय परीक्षण के प्रकार को प्रतिबिंबित करना चाहिए। दूसरे शब्दों में, विश्लेषण के लिए डेटा की जो भी विशेषताओं का उपयोग किया गया था, उसे नेत्रहीन रूप से दिखाया जाना चाहिए - इसलिए यदि आप एक टी-टेस्ट लेकिन बॉक्सप्लाट का उपयोग करते हैं, तो आप साधन और मानक त्रुटियों को दिखाते हैं यदि आपने मान-व्हिटनी परीक्षण का उपयोग किया है।