प्लॉट्स तैयार करते समय मैं आमतौर पर अपनी खुद की पहचान बनाता हूं। हालांकि, मुझे आश्चर्य है कि क्या भूखंडों के निर्माण के लिए कोई सर्वोत्तम प्रथाएं हैं।
नोट: इस सवाल के जवाब के लिए रॉब की टिप्पणी यहां बहुत प्रासंगिक है।
प्लॉट्स तैयार करते समय मैं आमतौर पर अपनी खुद की पहचान बनाता हूं। हालांकि, मुझे आश्चर्य है कि क्या भूखंडों के निर्माण के लिए कोई सर्वोत्तम प्रथाएं हैं।
नोट: इस सवाल के जवाब के लिए रॉब की टिप्पणी यहां बहुत प्रासंगिक है।
जवाबों:
प्लॉट तैयार करते समय टफेट के सिद्धांत बहुत अच्छे हैं। उनकी किताब ब्यूटीफुल एविडेंस भी देखें
सिद्धांतों में शामिल हैं:
शब्द खोज के लिए सूचना दृश्य है
SO: stackoverflow.com/questions/6973394/…
हम पूरे दिन यहां सर्वोत्तम प्रथाओं को दर्शाते हुए रह सकते हैं, लेकिन आपको टफ्टे को पढ़ना शुरू करना चाहिए। मेरी प्राथमिक सिफारिश:
इसे सरल रखें।
अक्सर लोग अपने चार्ट को जानकारी के साथ लोड करने की कोशिश करते हैं। लेकिन आपको वास्तव में सिर्फ एक मुख्य विचार होना चाहिए जिसे आप संप्रेषित करने की कोशिश कर रहे हैं और यदि किसी को आपका संदेश लगभग तुरंत नहीं मिलता है, तो आपको यह पुनर्विचार करना चाहिए कि आपने इसे कैसे प्रस्तुत किया है। इसलिए अपने चार्ट पर तब तक काम करना शुरू न करें जब तक कि संदेश स्वयं स्पष्ट न हो जाए। ओकाम का रेजर यहां भी लागू होता है।
अंगूठे का एक नियम जिसका मैं हमेशा पालन नहीं करता हूं, लेकिन जो अवसर पर उपयोगी होता है, उस पर ध्यान देना है कि यह संभावना है कि आपका प्लॉट उसके भविष्य में किसी बिंदु पर होगा
आपको अपने भूखंडों को पर्याप्त रूप से आज़माने और स्पष्ट करने की आवश्यकता है कि भले ही वे भविष्य में अभेद्य रूप से पुन: पेश किए जाते हैं, लेकिन साजिश को संप्रेषित करने की जानकारी अभी भी सुपाठ्य है।
एक स्पष्ट संदेश देने के अलावा, मैं हमेशा प्लॉट्समैनशिप को याद रखने की कोशिश करता हूं:
मैंने अपने प्लॉटिंग सॉफ़्टवेयर (matplotlib, ROOT या root2matplotlib) को इस अधिकार के साथ डिफ़ॉल्ट रूप से करने के लिए कॉन्फ़िगर किया है। इससे पहले कि मैं gnuplotयहां उपयोग कर रहा था जिसे यहां अतिरिक्त देखभाल की जरूरत थी।
भौतिकी क्षेत्र में एक नियम है कि पूरे कागज / रिपोर्ट को केवल प्लॉट पर त्वरित नज़र से समझा जाना चाहिए। इसलिए मैं मुख्य रूप से सलाह दूंगा कि उन्हें आत्म-व्याख्यात्मक होना चाहिए।
इसका अर्थ यह भी है कि आपको हमेशा यह देखना होगा कि आपके दर्शक किसी तरह के कथानक से परिचित हैं या नहीं - मैंने एक बार यह मानते हुए एक बड़ी गलती की थी कि प्रत्येक वैज्ञानिक जानता है कि बॉक्सप्लाट क्या हैं, और फिर उसे समझाने में एक घंटा बर्बाद हो गया।
यहाँ मेरे दिशानिर्देश हैं, सबसे आम त्रुटियों के आधार पर जो मैं देख रहा हूँ (अन्य सभी अच्छे बिंदुओं के अलावा)
R ग्राफ़िक्स लाइब्रेरी, ggplot2 पर एक नज़र डालें। विवरण वेब पेज http://had.co.nz/ggplot2/ पर हैं। यह पैकेज बहुत अच्छे डिफ़ॉल्ट प्लॉटों का निर्माण करता है, जो टफटे सिद्धांतों, क्लीवलैंड के दिशानिर्देशों और इहाका के रंग पैकेज का पालन करते हैं।
यदि रंग में प्लॉटिंग करते हैं, तो विचार करें कि कलरब्लिंड लोगों को अकेले रंग द्वारा तत्वों को भेद करने में परेशानी हो सकती है। इसलिए:
ये अद्भुत सुझाव हैं। हमने http://biostat.mc.vanderbilt.edu/StatGraphCourse पर बहुत सारी सामग्री इकट्ठी की है । फार्मा उद्योग, शिक्षाविद और एफडीए में सांख्यिकीविदों का एक समूह एक संसाधन भी बना रहा है जो नैदानिक परीक्षणों और संबंधित अनुसंधान के लिए बहुत उपयोगी होगा। एक महीने में बहुत सी नई सामग्रियों का अनावरण किया जाएगा लेकिन बहुत कुछ पहले से ही है - http://www.ctspedia.org/do/view/CSpedia/PageOneStatGraph
विलियम क्लीवलैंड द्वारा मेरी व्यक्तिगत पसंदीदा ग्राफिक्स पुस्तक तत्वों की रेखांकन डेटा है।
सॉफ्टवेयर के संदर्भ में, मेरी राय में आर के ggplot2 और जाली पैकेज को हरा पाना कठिन है। स्टैटा कुछ उत्कृष्ट ग्राफिक्स का भी समर्थन करता है।
यह इस बात पर भी निर्भर करता है कि आप अपने भूखंडों को कहां प्रकाशित करना चाहते हैं। किसी पत्रिका के लिए कोई भी प्लॉट बनाने से पहले आप लेखकों के लिए मार्गदर्शक से सलाह लेकर खुद को बहुत परेशानी से बचा लेंगे।
प्लॉट को एक प्रारूप में भी सहेजें जो आपके द्वारा बनाए गए कोड को संशोधित या सहेजना आसान है। संभावना है कि आपको सुधार करने की आवश्यकता है।
डायनामाइट भूखंडों का उपयोग न करें: http://pablomarin-garcia.blogspot.com/2010/02/why-dynamite-plots-are-bad.html , वायलिन भूखंड या इसी तरह के (बॉक्सप्लॉट्स परिवार) का उपयोग करें
अन्य उत्तर भी आश्वस्त करने के लिए बहुत ही फार्मूलाबद्ध हैं, इसलिए मुझे अधिक सामान्य उत्तर देने दें। मैं कुछ समय के लिए इस सवाल से जूझ चुका हूं। मैं इस प्रक्रिया की पेशकश करता हूं:
मुझे कंबल के दावों पर संदेह है जैसे कि "इसे सरल रखें" - इसका क्या मतलब है? खैर, यह दर्शकों पर निर्भर करता है। कुछ दर्शक टफ शैली को खा जाएंगे। लेकिन कुछ दर्शक अब और फिर थोड़ा चार्ट कबाड़ की सराहना करते हैं। कुछ लोग बिखराव से ऊब गए हैं। कुछ लोग रंगीन पृष्ठभूमि पसंद करते हैं। यदि आप "सौंदर्यवादी" पवित्रता से समझौता करते हैं, तो उन्हें थोड़ा सा उलझा देना कितना गलत है? यह आपको तय करना है।
आपके दर्शकों की प्रतिक्रिया एक महत्वपूर्ण प्रतिक्रिया होगी, लेकिन केवल एक ही नहीं। यदि आपको अपनी प्रस्तुति से पहले और बाद में उनकी समझ को मापने का कोई तरीका मिल जाता है , तो आप अपने द्वारा किए गए प्रभाव को समझने लगेंगे।
"सही" उत्तर इस प्रकार के प्रश्नों पर निर्भर करेगा:
आप किस मीडिया का उपयोग कर रहे हैं?
क्या आप स्टैटिक या इंटरएक्टिव प्लॉट बना रहे हैं?
क्या आप पूर्व-परिभाषित कहानी (एक्सपोज़र) बताने या प्रयोग (अन्वेषण) को प्रोत्साहित करने की कोशिश कर रहे हैं?
आप किस हद तक दर्शकों को अपना निष्कर्ष निकालना चाहते हैं?
किस हद तक आप चाहते हैं कि दर्शकों को आपकी कहानी के साथ-साथ पालन करना चाहिए?
आप किस हद तक दर्शकों को अपने निष्कर्षों को चुनौती देना चाहते हैं?
सारांश में, डिजाइन अपनी सामग्री जानबूझ कर अपने संदेश, दर्शकों, और बाधाओं को देखते हुए।
एक बात जो मुझे टफ्टे का उल्लेख करते हुए याद आती है, वह यह है कि अन्य उत्तरों में मैपिंग नहीं है - यानी आपके ग्राफ पर स्थिति, दिशा, आकार आदि को वास्तविकता का प्रतिनिधित्व करते हैं । ग्राफ पर क्या है वास्तविक दुनिया में ऊपर होना चाहिए। जो बड़ा है वह बड़ा होना चाहिए (यह ध्यान में रखते हुए कि क्षेत्रों को क्षेत्रों का प्रतिनिधित्व करना चाहिए, और वॉल्यूम का वॉल्यूम। कभी किसी क्षेत्र द्वारा स्केलर मान का प्रतिनिधित्व करने की कोशिश न करें, यह बहुत अस्पष्ट है!)। यह रंग, आकार, आदि पर भी लागू होता है, यदि वे प्रासंगिक हैं।
एक दिलचस्प उदाहरण "स्कर्ट श्रृंखला" ग्राफ यहां है: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html । जबकि तकनीकी रूप से यह सही है, और "लंबा" स्कर्ट की लंबाई ग्राफ पर एक उच्च स्थान रखती है, यह वास्तव में काफी भ्रामक है, क्योंकि स्कर्ट की लंबाई ऊपर से शुरू होती है , और नीचे जाती है (मनुष्यों, या पेड़ों के विपरीत, जहां हम ऊंचाई को मापते हैं। जमीन)। इतनी बढ़ी हुई स्कर्ट की लंबाई वास्तव में कम मूल्य का प्रतिनिधित्व करती है :
skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))

हमेशा की तरह, कठिनाइयाँ हैं। उदाहरण के लिए, हम आमतौर पर आगे बढ़ने के लिए समय पर विचार करते हैं, और पश्चिम में, कम से कम, हम बाएं से दाएं पढ़ते हैं, इसलिए समय बढ़ने के साथ-साथ हमारे समय-श्रृंखला के ग्राफ भी आमतौर पर दाएं से बाएं घूमते हैं। तो क्या होता है यदि आप किसी ऐसी चीज़ का प्रतिनिधित्व करना चाहते हैं जो समय के साथ बाद में सबसे अच्छी तरह से प्रतिनिधित्व करती है (जैसे पूर्व-पश्चिम माप कुछ)? उस स्थिति में, आपको समझौता करना होगा, और या तो समय को ऊपर या नीचे ले जाना होगा (जो कि सांस्कृतिक धारणाओं पर फिर से निर्भर करता है, मुझे लगता है), या अपने ग्राफ़ पर अपने पार्श्व चर को मैप करने के लिए चुनें।
यह उस तरीके पर निर्भर करता है जिसमें भूखंडों पर चर्चा की जाएगी।
उदाहरण के लिए, यदि मैं एक समूह बैठक के लिए भूखंड भेज रहा हूं जो विभिन्न स्थानों से कॉल करने वालों के साथ किया जाएगा, तो मैं उन्हें एक्पेल के विपरीत पावरपॉइंट में एक साथ रखना पसंद करता हूं, इसलिए चारों ओर फ्लिप करना आसान है।
एक-पर-एक तकनीकी कॉल के लिए, मैं एक्सेल में कुछ डालूंगा ताकि ग्राहक एक भूखंड को अलग करने में सक्षम हो, और कच्चे डेटा को देख सके। या, मैं पक्ष प्रतिगमन गुणांक के साथ कोशिकाओं में पी-मान दर्ज कर सकता हूं, जैसे
ध्यान रखें: प्लॉट सस्ते होते हैं, खासकर स्लाइड शो के लिए, या किसी समूह को ईमेल करने के लिए। बल्कि मैं 10 स्पष्ट भूखंड बनाऊंगा जिन्हें हम 5 प्लॉटों के माध्यम से फ्लिप कर सकते हैं जहां मैं एक ही ग्राफ पर अलग-अलग कॉहर्ट्स (जैसे "नर और मादा") डालने की कोशिश करता हूं।
मैं यह जोड़ना चाहूंगा कि डेटा का विश्लेषण करने के लिए प्लॉट का चुनाव सांख्यिकीय परीक्षण के प्रकार को प्रतिबिंबित करना चाहिए। दूसरे शब्दों में, विश्लेषण के लिए डेटा की जो भी विशेषताओं का उपयोग किया गया था, उसे नेत्रहीन रूप से दिखाया जाना चाहिए - इसलिए यदि आप एक टी-टेस्ट लेकिन बॉक्सप्लाट का उपयोग करते हैं, तो आप साधन और मानक त्रुटियों को दिखाते हैं यदि आपने मान-व्हिटनी परीक्षण का उपयोग किया है।