क्या विशेषताएं "पेशेवर-गुणवत्ता" का एक आंकड़ा बनाती हैं?


35

मैंने लोगों को यह कहते सुना है कि ORIGIN द्वारा निर्मित प्लॉट पॉलिश और "पेशेवर" दिखते हैं, जबकि मैथमैटिक द्वारा निर्मित प्लॉट नहीं होते हैं। हालाँकि, ज्यादातर प्लॉट-क्रिएशन प्रोग्राम काफी कंफर्टेबल होते हैं और यह इस कारण से खड़ा होता है कि टिक लोकेशन और लेबलिंग, फॉन्ट और कलर चॉइस, लेबल अलाइनमेंट जैसी चीजों के लिए सही सेटिंग्स के साथ, मुझे मैथमैटिकब के साथ एक फिगर बनाने में सक्षम होना चाहिए / matplotlib / gnuplot / आदि। यह उतना ही अच्छा लगता है जितना कि ORIGIN से आता है। लेकिन इस संदर्भ में किसी आंकड़े के "पेशेवर" होने का क्या मतलब है?

दूसरे शब्दों में, यदि मेरा लक्ष्य एक वैज्ञानिक पेपर में शामिल करने के लिए सर्वोत्तम दिखने वाले आंकड़े बनाना है, तो आमतौर पर उस लक्ष्य के लिए कौन से डिज़ाइन विकल्प सुझाए जाते हैं? स्पष्ट रूप से किसी को उचित प्रकार का प्लॉट चुनना होगा , जैसे बार ग्राफ बनाम स्कैटर प्लॉट, और रैखिक बनाम लॉगरिदमिक पैमाना, लेकिन वे विकल्प हैं जो हम हमेशा सोचते हैं कि हम किस प्लॉटिंग प्रोग्राम का उपयोग कर रहे हैं। मैं उन चीजों में अधिक रुचि रखता हूं जिनके बारे में हम आम तौर पर नहीं सोचते हैं, जो सामान्य रूप से कुछ प्लॉटिंग प्रोग्राम की चूक के अनुसार निर्धारित होते हैं, लेकिन जिन्हें प्लॉट के रूप में सुधार करने के लिए बदला जा सकता है।


2
यह अच्छी तरह से यहाँ विषय हो सकता है ... मैं इसे स्वीकार्य डेटा विज़ुअलाइज़ेशन प्रश्नों की सीमाओं की जांच करने के लिए पोस्ट कर रहा हूं (cf meta.scicomp.stackexchange.com/questions/55/… )
डेविड जेड

5
कई भूखंडों की खराब गुणवत्ता को देखते हुए जो इसे वैज्ञानिक प्रकाशनों में शामिल करते हैं, यह हो सकता है कि समुदाय की परिभाषा में सुधार की आवश्यकता है!
डेविड केचेसन

2
@DavidZaslavsky - मुझे लगता है कि यह वास्तव में इस प्रश्न के लिए सबसे उपयुक्त जगह हो सकता है के रूप में यह है वैज्ञानिक डेटा की प्रस्तुति है, जो कम्प्यूटेशनल विज्ञान का हिस्सा है के लिए विशिष्ट। मैंने अक्सर वैज्ञानिकों की शिकायतों को देखा है कि हमारे सॉफ़्टवेयर द्वारा निर्मित ग्राफ़ 'प्रकाशन मानक' तक नहीं हैं और उन्हें छुआ जाना है, इसलिए इस समस्या के साथ अन्य लोगों के अनुभवों को देखना अच्छा होगा। हमेशा की तरह, व्यक्तिपरक प्रश्नों के साथ, उत्तरों को छह दिशानिर्देशों का पालन करना चाहिए ।
मार्क बूथ

बेशक, @ मर्क। मैंने इसे यथासंभव उद्देश्यपूर्ण बनाने की कोशिश की है क्योंकि यह एक तकनीकी प्रश्न नहीं है।
डेविड जेड

धन्यवाद डेविड, मेरी टिप्पणी उन सवालों के जवाब देने के उद्देश्य से अधिक थी, क्योंकि हम उस समय छोटे उत्तरों की ओर बढ़ रहे थे। छह दिशा-निर्देश लंबे समय से अधिक पसंद करते हैं, राय से अधिक अनुभव, धारणा पर संदर्भ, पूर्वाग्रह पर निष्पक्षता, अतिशयोक्ति पर गंभीर और तथ्यों और संदर्भों के साथ उत्तर देने का सुझाव देते हैं। ये सभी इस प्रकार के उत्तर के लिए प्रयास करने के लिए अच्छी चीजें हैं। सवाल।
मार्क बूथ

जवाबों:


14

IMO, जो एक आंकड़ा "पेशेवर गुणवत्ता" बनाता है उसे जर्नल / प्रकाशक नियमों द्वारा परिभाषित किया गया है। जो वास्तव में "प्रकाशन गुणवत्ता" में अनुवाद करता है, जो आपके द्वारा प्रकाशित किए जाने के आधार पर सापेक्ष है। कुछ सार्वभौमिक नियम खड़े होते प्रतीत होते हैं - प्लॉटिंग सॉफ़्टवेयर का उपयोग करने वाला व्यक्ति:

1) एक आंकड़ा में जानकारी / विचार / तर्क को व्यक्त करने के लिए आवश्यक कुछ तत्व होने चाहिए। कुछ सेकंड के भीतर एक आंकड़ा आसानी से पढ़ा / समझा जाना चाहिए - अगर आपको यह समझने में अधिक समय लगता है कि आंकड़ा क्या चल रहा है, तो यह बहुत अधिक जानकारी हो सकती है। यह कभी-कभी यह जांचना कठिन होता है कि आप अपने स्वयं के कथानक / डेटा से परिचित हैं - चाहे वह कितना भी अधिक हो - यह कुछ सहयोगियों को यह देखने के लिए है कि क्या वे इसे आसानी से पढ़ सकते हैं। (आकृति के पीछे के भौतिक अर्थ को समझने में गलती नहीं है - यह आमतौर पर काफी समय लगता है)।

2) यदि आपको रंगों का उपयोग करना है, तो अपने आप को कुछ तक सीमित करना सबसे अच्छा है, आदर्श रूप से रंग पहिया के विपरीत तरफ। जैसे नीला और लाल, नीले और हरे रंग से बेहतर है। एक आकृति में कई शेड्स हो सकते हैं - लेकिन कुछ मुख्य रंगों का होना सबसे अच्छा है। मैं अक्सर बीच-बीच में सफेद संक्रमण के साथ नीले (कम मूल्यों) और लाल (उच्च मूल्यों) का उपयोग करना पसंद करता हूं। हमेशा रंग-अंधे पाठकों को ध्यान में रखें।

3) टिक के निशान, समोच्च लेबल आदि सभी को आसानी से एक आवर्धक कांच के बिना पढ़ा जा सकता है - इसलिए, जर्नल बॉडी टेक्स्ट के समान फ़ॉन्ट आकार। आप यह जांच सकते हैं कि 3 और 6 इंच की आंकड़ा चौड़ाई के साथ हार्डकॉपी को प्रिंट करके सब कुछ पढ़ा जा सकता है (ये वैज्ञानिक पत्रिकाओं में सामान्य आकार के आकार हैं)।

4) अंत में, सुनिश्चित करें कि आंकड़े के हर एक तत्व का उद्देश्य है। यदि कोई ऐसी चीज है जो उपयोगी जानकारी नहीं दे रही है - इसे बाहर फेंक दें। यह आंकड़े की पठनीयता में मदद करेगा।

उस बिंदु पर जहां आप सभी छोटे तत्वों को अनुकूलित करने में सहज होते हैं जो एक आंकड़ा बनाते हैं - टिक के निशान, लेबल आदि, यह वास्तव में कोई फर्क नहीं पड़ता कि आप किस उपकरण का उपयोग तब तक करते हैं जब तक आप एक साफ ईपीएस का उत्पादन करने में सक्षम नहीं होते हैं।


आप (1) के लिए तर्क पर विस्तार से बता सकते हैं? कुछ सेकंड लंबे समय तक नहीं है। क्या यह व्यावहारिक आधार पर है कि लोग वास्तव में, वास्तव में, व्यस्त हैं, ताकि अगर यह आंकड़ा समझने में कुछ सेकंड से अधिक समय लगे, तो वे परेशान करने वाले नहीं हैं?
फहीम मीठा

@FaheemMitha नहीं, मैं वास्तव में क्या मतलब है, आप पाठकों को एक एहसान कर रहे हैं यदि आप आंकड़ा स्पष्ट और सरल रखते हैं। एक ठोस मानदंड के रूप में कुछ सेकंड तक पकड़ न करें - यह सिर्फ यह है कि मुझे अपने खुद के आंकड़ों का मूल्यांकन करने के लिए कैसे उपयोग किया जाता है। आप एक आंकड़े पर कितनी जानकारी डाल सकते हैं इसकी एक सीमा है - बहुत अधिक लगाकर, आप पाठक को समझने के लिए सामग्री को कठिन बना सकते हैं। यदि आपके काम में दिलचस्पी है, तो आपके पाठक बहुत व्यस्त आंकड़ों को पढ़ने से परेशान होंगे - लेकिन एक कम व्यस्त आंकड़ा जानकारी को व्यक्त करने का बेहतर काम करता है।
मिलनसुरिक

मुझे यकीन नहीं है कि यह इस तरह के एक अस्पष्ट प्रश्न के उत्तर को स्वीकार करने के लिए पूरी तरह से समझ में आता है, लेकिन यह उत्तर मेरे द्वारा पूछे गए अस्पष्ट विचारों को सबसे अच्छा लगता है। तो आप चेकमार्क पाएं :-)
David Z

18

कुछ ऐसे तत्व हैं जिनकी मैं तलाश करता हूं, जब मैं या तो अपने काम में "प्रकाशन-गुणवत्ता" पर विचार करता हूं, या दूसरों को देखते समय मैं क्या विचार कर रहा हूं। वो हैं:

  1. उच्च संकल्प, और अधिमानतः वेक्टर-आधारित। यह अब तक काफी स्पष्ट होना चाहिए, लेकिन आपको आश्चर्य होगा।
  2. अव्यवस्था का अभाव। मुझे यह देखने में सक्षम होना चाहिए कि आपके आंकड़े में क्या हो रहा है, और इसे जल्दी से देखें। "हाई इंक: पेपर अनुपात" मार्गदर्शन लेने की कोशिश कर रहे किसी व्यक्ति से ज्यादा नफरत करने वाली कुछ चीजें हैं और एक ही आकृति में पूरी पांडुलिपि रटना करने के लिए इसका उपयोग करने के लिए।
  3. अच्छी तरह से प्रिंट करता है। यह वही है जो वास्तव में मेरे लिए सबसे महत्वपूर्ण है, और जब मैं कागजात की समीक्षा कर रहा होता हूं, तो मैं हमेशा परीक्षण करता हूं। "क्या आंकड़े छापते हैं?" एक से अधिक बार, मैंने आंकड़े हिट किए हैं जिनके अंक ग्रेस्केल में मुद्रित होने पर पूरी तरह से अस्पष्ट हैं, जो उन्हें मेरे उद्देश्यों के लिए बेकार प्रदान करता है (मैं स्क्रीन पर नहीं पढ़ता हूं)।
  4. सबूत है कि निर्माता ग्राफिक्स सेटिंग्स का उपयोग करना जानता है। कोई विषम-गेंद अक्ष विकल्प, सही जगह पर टिक के निशान आदि।
  5. # 2 के साथ संयुक्त, "उत्कर्ष" की कमी है जो पूरी तरह से प्रकृति में चित्रमय है। छाया, अनावश्यक 3-डी, आदि जो वास्तव में कुछ भी नहीं करते हैं लेकिन पाठकों का समय बर्बाद करते हैं।

उन में से अधिकांश ईमानदारी से निर्माता-विशिष्ट हैं, बजाय कार्यक्रम विशेष के। मैंने आर में किए गए भयानक भूखंडों और एक्सेल में किए गए उत्कृष्ट भूखंडों को देखा है।


वेक्टर ग्राफिक्स वास्तव में वांछनीय है। लेकिन क्या कोई व्यापक रूप से उपयोग किए जाने वाले ड्राइंग प्रोग्राम हैं जो नहीं हैं?
फहीम मीठा

2
ड्राइंग कार्यक्रम? जिसके बारे में मैंने सोचा था, वह नहीं है। प्रोग्राम जो भूखंडों का उत्पादन करते हैं - सांख्यिकीय पैकेज और जैसे? उनमें से कई में गैर-वेक्टर आउटपुट प्रारूप उपलब्ध हैं, या उनकी चूक के रूप में।
Fomite

14

यदि हम डेटा के आंकड़ों के बारे में बात कर रहे हैं, तो मैं स्रोतों पर जाऊंगा: एडवर्ड टफ्टे का दृश्य प्रदर्शन गुणात्मक सूचना और सुंदर साक्ष्य

मिस्टर टफ्टे बेशक कुछ विवरणों में जाते हैं, लेकिन मेरे लिए जो सिद्धांत खड़ा है, वह फ्रेम और सजावट पर स्याही खर्च नहीं कर रहा है, बल्कि आपकी स्याही के बारे में अधिक से अधिक जानकारी ले सकता है।

मार्क के अनुरोध के अनुसार संशोधित:

गुणात्मक सूचना के दृश्य प्रदर्शन से कुछ प्रमुख बिंदु हैं

  • डेटा को इस तरह से दिखाएं कि जो कहना है उसे विकृत या बाधित न करें
  • अलग-अलग स्तरों पर अलग-अलग डेटा के बीच तुलना करने के लिए डिस्प्ले की व्यवस्था करें
  • सांख्यिकीय और मौखिक विवरण के साथ ग्राफिक पहलुओं को एकीकृत करें
  • ऐसे तत्वों को हटाकर स्याही अनुपात के लिए डेटा को अधिकतम करें जो किसी उद्देश्य की पूर्ति नहीं करते हैं (या अन्य तत्वों द्वारा निरर्थक बना दिए गए हैं) और अतिरिक्त जानकारी देने के लिए किन तत्वों का उपयोग करते हैं (उदाहरण के लिए एक बॉक्सप्लॉट पर वेरिएंट हैं)
  • छोटे आयामों का उपयोग इन अतिरिक्त आयामों के साथ तुलना करने के लिए उच्च आयामी डेटा सेट की व्यवस्था करने के लिए किया जा सकता है

सुंदर साक्ष्य इसके दायरे में एक व्यापक पुस्तक है। मैं सिर्फ अध्याय शीर्षक पुन: पेश करूंगा:

  • मैप किए गए चित्र: साक्ष्य और स्पष्टीकरण के रूप में छवियां
  • स्पार्कलाइन: तीव्र, सरल, शब्द-आकार वाले ग्राफिक्स
  • लिंक और कोशल तीर: लड़ाई में अस्पष्टता
  • शब्द, संख्या, चित्र - एक साथ
  • विश्लेषणात्मक डिजाइन के मौलिक सिद्धांत
  • साक्ष्य प्रस्तुतिकरण में भ्रष्टाचार: कारण के बिना प्रभाव, चेरी पेकिंग, अतिवृद्धि, चार्टजंक, और रेज टू कॉनक्लूड
  • पावरपॉइंट की संज्ञानात्मक शैली: भीतर बाहर भ्रष्ट पिचिंग
  • मूर्तिकला पेडेस्टल्स: अर्थ, अभ्यास, अवसादग्रस्तता
  • लैंडस्केप मूर्तियां

सुंदर साक्ष्य में दिलचस्प टिप्पणियों में से एक यह है कि हम आम तौर पर मुद्रित सामग्री के लिए उच्च घनत्व आउटपुट डिवाइस (एक 300 डीपीआई प्रिंटर इन दिनों कम घनत्व वाला उपकरण) का उपयोग करते हैं, लेकिन अक्सर स्क्रीन या लाइन प्रिंटर के लिए हमारे आंकड़े आकर्षित करते हैं, जो एक बहुत बड़ी क्षमता को बर्बाद करता है। जानकारी देने के लिए।


मात्रात्मक सूचना के दृश्य प्रदर्शन का पृष्ठ 13 एक अच्छे, बुलेट बिंदु के साथ शुरू होता है, "पेशेवर ग्राफिक्स" का सारांश या जैसा कि वहाँ शीर्षक दिया गया है "आलेखीय उत्कृष्टता।"
ब्रायन डिग्स

@Brian Diggs - मुख्य बिंदुओं के सारांश के साथ या तो आप या dmckee इस उत्तर को अपडेट कर सकते हैं? हममें से बहुत से लोग दिलचस्पी ले सकते हैं कि सारांश जानने के लिए पर्याप्त रुचि रखने के लिए वास्तव में गोई को बाहर करने और किताबें खरीदने के लिए पर्याप्त रुचि नहीं है।
मार्क बूथ

@ मर्क: मैं इसे अगले दिन या तो ... कार्यालय में मेरी कॉपी और अभी नहीं हूँ।
dmckee

8

सबसे अच्छे आंकड़े जो मैं व्यक्तिगत रूप से बनाने में सक्षम हूं, वह TeX पैकेज PGF / TikZ के साथ है । यदि आप लाटेक्स का उपयोग करते हैं, जैसा कि कठिन विज्ञान करते हैं, तो आपने शायद ही इसके बारे में सुना हो।

यह LaTex ग्राफिक्स पैकेज में अग्रणी भी प्रतीत होता है। TeX StackExchange साइट पर प्रश्नों पर एक बड़ा अनुपात PGF / TikZ के बारे में है। मुझे यकीन नहीं है कि परिणाम इतने अच्छे क्यों हैं, लेकिन निश्चित रूप से एक फायदा PGF / TikZ के पास अन्य पैकेजों पर है जब LaTeX का उपयोग कर रहा है कि यह केवल पाठ के साथ बेहतर एकीकृत करता है। एक बात के लिए, फिगर में फोंट टेक्स्ट की तरह ही होंगे।


बेशक, वास्तव में यह आंकड़े बनाने के लिए मेरा पसंदीदा तरीका है ;; लेकिन मैं इस बात में अधिक दिलचस्पी रखता हूं कि टिकज प्लॉट्स को अच्छा क्यों माना जाता है।
डेविड जेड

1
@ डैडीजैसलेव्स्की: मैं दुन्नो। तक प्रतिभा है? :-)
फहीम मीठा

@DavidZaslavsky: गंभीरता से, यह प्रश्न tex.sx के लिए विषय पर धमाकेदार है, और संभावना पहले से ही वहां संबोधित की जा चुकी है।
फहीम मीठा

1
@ ईपीग्रैड: मेरा सिर्फ यह मतलब था कि विशेष रूप से टीएक्सजेड के बारे में पूछना टेक्सस पर अधिक उपयोगी होगा, अगर डेविड इतना दिमागदार था। निश्चित रूप से व्यापक प्रश्न tex.sx के लिए विषय पर नहीं होगा।
फहीम मीठा

1
pgfplots बहुत अद्भुत है। डिफ़ॉल्ट रूप से यह बहुत अच्छा लगता है कि आप इसे कैसे चाहते हैं, यानी बॉक्स्ड, वेक्टर-क्रिस्प, बॉडी टेक्स्ट, एट के अनुरूप लेबल। लेकिन इसे समायोजित करना भी आसान है। मेरी पसंदीदा चाल कुल्हाड़ियों को एक मैटलैब छद्म रंग की साजिश से छीन रही है, इसे काट रही है, और फिर टिक्ज़ में इसके चारों ओर कुल्हाड़ियों को लपेट रहा है। इस तरह से आपको छद्म रंग के लिए एक रेखापुंज छवि मिलती है (यह कुछ मामलों में से एक है जिसके लिए रेखापुंज ग्राफिक बेहतर है) और अक्ष और लेबल के लिए लाटेक्स अच्छाई, और यहां तक ​​कि रंग पट्टी भी। यह pgfplots का उपयोग कर अपने जवाब में से एक है
qubyte

6

यह वर्णन करना लगभग आसान है कि किसी ग्राफ़ को अच्छा बनाने की तुलना में खराब ग्राफ क्या है।

ख़राब रेखांकन की कुछ विशेषताएं:

  • अत्यधिक बड़े या छोटे फोंट और प्रतीक
  • घटता और अन्य ग्राफ सुविधाओं के लिए अत्यधिक पतली या मोटी लाइनें
  • एक ही समय में कई अलग-अलग चर दिखाए जा रहे हैं या विविध हैं
  • अनुचित अक्ष चयन (लॉग बनाम रैखिक, श्रेणी, आदि)
  • ठोस वक्रों के साथ डेटा बिंदुओं के बीच रुझान दिखाना जो प्रगति या व्यवहार को इंगित करता है जो मौजूद नहीं हो सकता है
  • अनिश्चितताओं या त्रुटियों की भयावहता का कोई संकेत नहीं देता
  • पूरी तरह से कैप्शन या लेबल वाले ग्राफ़ (इकाइयों सहित)!

सामान्य तौर पर, हालांकि, अधिकांश सॉफ्टवेयर पैकेज अच्छे ग्राफिक्स बनाने में सक्षम होते हैं, लगभग कोई भी कार्यक्रम मैंने कभी भी ऐसे राज्य में चूक के साथ काम नहीं किया है जो अच्छे ग्राफिक्स हैं। उन्हें हमेशा ट्वीकिंग की आवश्यकता होती है: या तो फ़ॉन्ट आकार, या डिस्प्ले रेंज, या एक्सिस या प्रतीक विकल्प, और इसी तरह। वर्तमान में, मैं matplotlib का उपयोग करना पसंद करता हूं; मेरे समूह के अन्य लोग साइंसडविस में चले गए हैं।


सुनिश्चित नहीं है कि "त्रुटियों का संकेत नहीं देते" से आपका क्या मतलब है। क्या आप स्पष्ट कर सकते हो? अन्यथा, अच्छी सूची।
फहीम मीठा

स्पष्टता के लिए संपादित: "अनिश्चितताओं या त्रुटियों की भयावहता का कोई संकेत नहीं देता।" हालाँकि, जब त्रुटियों को दिखाया जाना बहुत छोटा है, तो इसे कैप्शन में दर्शाया जा सकता है।
aeismail

5

मुझे गणितज्ञ पैकेज LevelScheme का उपयोग करके उचित सफलता मिली है । यह निष्पादन मॉडल पारंपरिक गणितज्ञ प्रोग्रामिंग से थोड़ा अलग है, इसलिए इसके उपयोग के साथ सीखने की अवस्था है। लेकिन, यह प्लॉट पीढ़ी को ठीक नियंत्रण प्रदान करने में सक्षम है जो कि सादे गणितज्ञों में मुश्किल है। इसके अलावा, एक साइड पैकेज के रूप में, कस्टम टिक मार्क बनाने के लिए एक पैकेज है।

(एक बार जब Mathematica v.8 समर्थन वाला संस्करण सामने आता है, तो इसका नाम बदलकर SciDraw किया जाएगा।)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.