यह कैसे निर्धारित किया जाए कि ग्राफ का y- अक्ष शून्य पर शुरू होना चाहिए या नहीं?


45

"डेटा के साथ झूठ" करने का एक सामान्य तरीका वाई-अक्ष पैमाने का उपयोग करना है जो ऐसा लगता है जैसे कि परिवर्तन वास्तव में वे जितना महत्वपूर्ण हैं उससे अधिक महत्वपूर्ण हैं।

जब मैं वैज्ञानिक प्रकाशनों, या छात्रों की लैब रिपोर्टों की समीक्षा करता हूं, तो मैं अक्सर इस "डेटा विज़ुअलाइज़ेशन पाप" से निराश होता हूं (जो मुझे लगता है कि लेखक अनायास ही प्रतिबद्ध हैं, लेकिन फिर भी एक भ्रामक प्रस्तुति का परिणाम है।)

हालांकि, "हमेशा शून्य पर y- अक्ष शुरू करें" एक कठिन और तेज़ नियम नहीं है। उदाहरण के लिए, एडवर्ड टफ्टे बताते हैं कि एक समय श्रृंखला में, आधारभूत जरूरी शून्य नहीं है:

सामान्य तौर पर, समय-श्रृंखला में, एक आधार रेखा का उपयोग करें जो डेटा को शून्य बिंदु नहीं दिखाता है। यदि शून्य बिंदु यथोचित रूप से डेटा को प्लॉट करने में होता है, ठीक है। लेकिन डेटा लाइन में जो चल रहा है, उसे छिपाने की कीमत पर बहुत सारे खाली ऊर्ध्वाधर स्थान को शून्य बिंदु तक पहुंचने की कोशिश करने में खर्च न करें। (पुस्तक, हाउ टू लाइ विद स्टेटिस्टिक्स, इस बिंदु पर गलत है।)

उदाहरण के लिए, सभी जगह, समय-श्रृंखला में अनुपस्थित शून्य बिंदुओं की, किसी भी प्रमुख वैज्ञानिक शोध प्रकाशन पर एक नज़र डालें। वैज्ञानिक अपना डेटा दिखाना चाहते हैं, शून्य नहीं।

डेटा को प्रासंगिक बनाने का आग्रह एक अच्छा है, लेकिन संदर्भ खाली ऊर्ध्वाधर स्थान से शून्य तक नहीं पहुंचता है, एक संख्या जो कि कई अच्छे डेटा सेटों में भी नहीं होती है। इसके बजाय, संदर्भ के लिए, क्षैतिज रूप से अधिक डेटा दिखाएं!

मैं उन पत्रों में भ्रामक प्रस्तुति को इंगित करना चाहता हूं जिनकी मैं समीक्षा करता हूं, लेकिन मैं शून्य-वाई-अक्ष शुद्ध नहीं होना चाहता।

क्या ऐसे कोई दिशानिर्देश हैं जो पता करते हैं कि शून्य पर y- अक्ष को कब शुरू करना है, और जब यह अनावश्यक और / या अनुचित है? (विशेषकर अकादमिक कार्य के संदर्भ में)


3
मुझे लगता है कि शामिल नहीं है या नहीं (0 सहित) संभावित रूप से भ्रामक है जो कहानी कहे जाने पर गंभीर रूप से निर्भर करता है।
गूँग -

2
एक बातचीत में वाक्यांश "अत्यधिक दबाए गए शून्य पर ध्यान दें" या इसी तरह का उपयोग संभावित भ्रामक आंकड़े के लिए ईमानदारी लाने के लिए किया जा सकता है। मैं मुद्रित सामग्री में उतना खुश नहीं हूं, लेकिन एक चुटकी में आप इसे वहां भी इस्तेमाल कर सकते हैं।
dmckee

इन सब से बचने के लिए, जब भी संभव हो मैं बॉक्सप्लेट का उपयोग कर रहा हूं। साधन और त्रुटि सलाखों की गणना करने की आवश्यकता नहीं है और यह बहुमूल्य जानकारी (जैसे डेटा वितरण, प्रसार, तिरछा, रेंज) के साथ सभी एक ही भूखंड में पैक किया जाता है। इसके अलावा, आप कच्चे डेटा दिखा रहे हैं।
स्टेफान

@Stefan बॉक्स प्लॉट वास्तव में मददगार हो सकते हैं। हालाँकि, यह अजीब है, कि कुछ पाठ्यपुस्तकें भी एनोवा को समझाती हैं और फिर बॉक्स प्लॉट दिखाती हैं। उस प्रयोजन के लिए, साधन, यदि त्रुटि बार नहीं हैं, तो निश्चित रूप से प्रासंगिक हैं और जानकारीपूर्ण होना चाहिए। विविधता के आधार पर, कई बॉक्स प्लॉट कच्चे डेटा को दिखाने का बहुत खराब काम करते हैं, क्योंकि वे इसे संक्षेप में प्रस्तुत करते हैं। लेकिन ऐसे संवर्द्धन हैं जो मदद करते हैं, जैसे कि क्वांटाइल बॉक्स प्लॉट। हालाँकि, इस संदर्भ में, ध्यान दें कि किसी भी तरह से साधन और त्रुटि पट्टियाँ दिखाना आपको दिखाने के लिए प्रतिबद्ध नहीं है यदि यह डेटा की सीमा के बाहर है। y=0
निक कॉक्स

@NickCox आपकी टिप्पणी के लिए धन्यवाद! मैं मानता हूँ कि बाद एनोवा किया गया है किया दिखाने का मतलब है और त्रुटि सलाखों अधिक समझ में आता है। हालांकि, किसी भी विश्लेषण को चलाने से पहले, मुझे लगता है कि बॉक्सप्लेट अधिक जानकारीपूर्ण हैं और जानकारी देते हैं कि आपका डेटा कैसा दिखता है और चुना गया एनोवा उपयुक्त है या नहीं। "डेटा के साथ झूठ" पहले से ही हो सकता है जब उदाहरण के पैरामीट्रिक परीक्षण चुने जाते हैं लेकिन डेटा आवश्यक मान्यताओं को पूरा नहीं करता है। इसलिए, वैज्ञानिक अध्ययन के एक पाठक के रूप में, मैं हमेशा प्रस्तुत परिणामों के बारे में अपना मन बनाने के लिए बॉक्सप्लेट देखना पसंद करता हूं।
स्टेफन

जवाबों:


40
  • किसी भी तरह से ग्राफ़ में स्थान का उपयोग न करें जो समझने में मदद नहीं करता है। डेटा दिखाने के लिए स्पेस की जरूरत होती है!

  • अपने वैज्ञानिक (इंजीनियरिंग, चिकित्सा, सामाजिक, व्यवसाय, ...) निर्णय के साथ ही अपने सांख्यिकीय निर्णय का उपयोग करें। (यदि आप ग्राहक या ग्राहक नहीं हैं, तो इस क्षेत्र में किसी से बात करने के लिए विचार करें कि क्या दिलचस्प या महत्वपूर्ण है, अधिमानतः विश्लेषण चालू करने वाले।)

  • अक्ष पर शून्य दिखाएं यदि शून्य के साथ तुलना समस्या के लिए केंद्रीय है, या कुछ ब्याज की भी है।y

वे तीन सरल नियम हैं। (कुछ अवसरों पर उनके बीच कुछ तनाव के नियम नहीं हैं।)

यहां एक सरल उदाहरण है, लेकिन सभी तीन बिंदु उत्पन्न होते हैं: आप सेल्सियस में, या फ़ारेनहाइट में, या केल्विन में भी एक रोगी के शरीर के तापमान को मापते हैं: अपनी पिक लें। शून्य तापमान दिखाने पर जोर देने के लिए यह किस अर्थ में सहायक है या तार्किक भी है? महत्वपूर्ण, यहां तक ​​कि चिकित्सकीय या शारीरिक रूप से महत्वपूर्ण, जानकारी अन्यथा अस्पष्ट होगी।

यहाँ एक प्रस्तुति से एक सच्ची कहानी है। एक शोधकर्ता भारत के विभिन्न राज्यों और केंद्र शासित प्रदेशों के लिए सेक्स अनुपात पर डेटा दिखा रहा था। ग्राफिक एक बार चार्ट था जिसमें सभी बार शून्य पर शुरू होते थे। सभी पट्टियाँ कुछ भिन्नता के बावजूद समान लंबाई के करीब थीं। यह सही था, लेकिन दिलचस्प कहानी यह थी कि क्षेत्र समानता के बावजूद भिन्न थे, ऐसा नहीं कि वे मतभेदों के बावजूद समान थे। मैंने सुझाव दिया कि पुरुषों और महिलाओं (1 या 100 महिला / 100 पुरुषों) के बीच समानता एक बहुत अधिक प्राकृतिक संदर्भ स्तर था। (मैं कुछ समग्र स्तर का उपयोग करने के लिए भी खुला रहूंगा, जैसे कि राष्ट्रीय मतलब, एक संदर्भ के रूप में।) यहां तक ​​कि कुछ सांख्यिकीय लोग जिन्होंने इस छोटी सी कहानी को सुना है, ने कभी-कभी उत्तर दिया है, "नहीं, सलाखों को हमेशा शून्य पर शुरू करना चाहिए।" मेरे लिए जो इस तरह के मामले में अप्रासंगिक हठधर्मिता से बेहतर नहीं है।

बार चार्ट्स का उल्लेख करना बताता है कि जिस तरह का ग्राफ इस्तेमाल किया गया है वह महत्वपूर्ण भी है। मान लीजिए कि शरीर के तापमान के लिए अक्ष सीमा 35 से 40 सी को सभी डेटा सहित सुविधा के लिए चुना जाता है, ताकि अक्ष 35 पर "शुरू" हो जाए। स्पष्ट रूप से सभी 35 पर शुरू होने वाली बार एक खराब एन्कोडिंग होगी। डेटा। लेकिन यहाँ समस्या ग्राफ़ तत्व की अनुचित पसंद होगी, न कि खराब चुनी गई अक्ष सीमा।yy

एक सामान्य प्रकार की साजिश, विशेष रूप से यह कुछ जैविक और चिकित्सा विज्ञानों में लगता है, शून्य से शुरू होने वाली मोटी सलाखों या मानक त्रुटि या मानक विचलन-आधारित अंतराल से पता चलता है, जो पतली सलाखों से अनिश्चितता का संकेत देता है। इस तरह के डेटोनेटर या डायनामाइट प्लॉट, जैसा कि उन्हें कहा जाता है जो अस्वीकृत करते हैं, आंशिक रूप से एक तानाशाही के कारण लोकप्रिय हो सकते हैं कि शून्य को हमेशा दिखाया जाना चाहिए। शुद्ध प्रभाव शून्य के साथ तुलना पर जोर देना है जो अक्सर ब्याज या उपयोगिता में कमी होती है।

कुछ लोग शून्य दिखाना चाहते हैं, लेकिन यह भी पैमाने को तोड़ने के लिए पैमाने को बाधित करने के लिए जोड़ना चाहते हैं। फैशन बदलते हैं और तकनीक बदलती है। दशकों पहले, जब शोधकर्ताओं ने अपने स्वयं के ग्राफ़ को आकर्षित किया या तकनीशियनों को कार्य सौंप दिया, तो यह पूछना आसान था कि यह हाथ से किया जाए। अब ग्राफिक्स प्रोग्राम अक्सर स्केल ब्रेक का समर्थन नहीं करते हैं, जो मुझे लगता है कि कोई नुकसान नहीं है। यहां तक ​​कि अगर वे करते हैं, तो वह उधम मचाता है जो ग्राफिक के क्षेत्र के एक मामूली अंश को बर्बाद कर सकता है।

ध्यान दें कि कोई भी अक्ष के लिए एक ही नियम पर जोर नहीं देता है। क्यों नहीं? यदि आप पिछली सदी के लिए जलवायु या आर्थिक उतार-चढ़ाव दिखाते हैं, तो यह बताना विचित्र होगा कि पैमाने बीसी / सीई सीमा या किसी अन्य मूल से शुरू होने चाहिए।x

स्वाभाविक रूप से एक शून्य नियम है जो तीन उल्लिखित के अतिरिक्त लागू होता है।

  • आप जो कुछ भी करते हैं, वह बहुत स्पष्ट है। अपनी कुल्हाड़ियों को लगातार और सूचनात्मक रूप से लेबल करें। फिर भरोसा करें कि सावधान पाठक यह देखेंगे कि आपने क्या किया है।

इस प्रकार इस बिंदु पर मैं एडवर्ड टफटे के साथ दृढ़ता से सहमत हूं, और मैं डेरेल हफ से असहमत हूं।

EDIT 9 मई 2016:

इसके बजाय अपने सभी चार्टों में हमेशा 0-आधार रेखा शामिल करने के बजाय तार्किक और सार्थक आधारभूत का उपयोग करें

काहिरा, ए। 2016. द ट्रूथफुल आर्ट: डेटा, चार्ट्स, एंड मैप्स फॉर कम्युनिकेशन। सैन फ्रांसिस्को, CA: न्यू राइडर्स, पी .१६३।


7
एक तरफ के रूप में: मुझे लगता है कि लोगों को "शून्य पर शुरू" के साथ हठधर्मिता से चिपके रहने का अधिक खतरा होता है, जब डेटा बार द्वारा दर्शाया जाता है, इस आधार पर कि बार क्षेत्र दिखाते हैं और क्षेत्र भ्रामक है यदि यह शून्य पर शुरू नहीं होता है। एक पर क्लीवलैंड डॉट साजिश जो अक्सर एक अधिक उपयुक्त दृश्य वैसे भी है - - वहाँ शून्य से शुरू करने के लिए इस तरह का कोई सम्मोहक तर्क लगता है, और लोगों को और अधिक है, जहां वे शुरू के बारे में लचीला होना करने के लिए तैयार लग रहे हैं।
सिल्वर फिश

4
बहुत बढ़िया जवाब। मैंने इस प्रश्न को एक ऐसे पेपर की समीक्षा करने के संदर्भ में पूछा जो लगातार अक्ष अक्ष का उपयोग करता था (डेटा में महत्वहीन भिन्नता पर जोर देते हुए)। इस जवाब ने मुझे एहसास दिलाया कि जो मैं वास्तव में निराश था, वह डेटा को समझने और उसकी व्याख्या करने में (सांख्यिकीय और इंजीनियरिंग) निर्णय की कमी थी - अक्ष सीमा के बारे में शिकायत करने की तुलना में समीक्षा में टिप्पणी करने के लिए बहुत अधिक रचनात्मक बात।
ff524 8

4
शून्य पर अक्ष की शुरुआत करने के बारे में नियम केवल निरंतर चर के लिए सोचने के लिए समझ में आता है जो अनुपात हैं, इसलिए शून्य का वास्तविक अर्थ है। 0 का वजन कोई वजन नहीं है। आदि। लेकिन सी या एफ में तापमान शून्य के लिए मनमाना मूल्यों का उपयोग करते हैं, इसलिए वहां अक्ष को शुरू करने के बारे में सोचने का कोई मतलब नहीं है।
हार्वे मोटुलस्की

2
0 C से शुरू होने वाले बार्स पानी के ठंड बिंदु के ऊपर और नीचे तापमान को । मैंने देखा है कि जलवायु विज्ञान में किया और इसका भौतिक अर्थ है। स्वाभाविक रूप से मैं अधिक सामान्य बिंदु से सहमत हूं कि अनुपात अनुपात और मनमाने ढंग से अन्यथा के लिए शून्य स्वाभाविक है।
निक कॉक्स

3
अच्छा है, लेकिन मैं यह बताना चाहूंगा कि "निर्णय" बिंदु दर्शकों पर निर्भर करता है (दर्शक हमेशा मायने रखता है!)। तकनीकी ऑडियंस अक्ष को पढ़ेंगे और इम्पीकेट्स को समझेंगे। लेफ्ट आबादी का एक निश्चित अंश धुरी के लेबल को नजरअंदाज करेगा और पैमाने के बारे में संभावित गलत धारणाओं के तहत ग्राफ के आकार से निष्कर्ष निकालेगा। यदि ग्राफ़ एक लेट ऑडियंस के लिए अभिप्रेत है, तो आपको उस फ़ैसले को अपनाना होगा।
dmckee
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.