चरम बहिर्वाह के साथ बॉक्स प्लॉट कैसे प्रस्तुत करें?


17

मैं कुछ डेटा प्रस्तुत करने के बारे में कुछ मार्गदर्शन का उपयोग कर सकता हूं।

यह पहला कथानक साइटोकाइन IL-10 के लिए केस-कंट्रोल तुलना है। मैंने डेटा का 99% शामिल करने के लिए मैन्युअल रूप से y अक्ष निर्धारित किया है।

आईएल -10 मैनुअल वाई अक्ष के साथ

मैंने इसे मैन्युअल रूप से सेट करने का कारण यह है क्योंकि केस समूह में एक अत्यधिक परिणाम है। बहिरंग के साथ

मेरे सहयोगी हमारे डेटासेट में एक बाहरी निष्कासन करने से हिचकिचाते हैं। मैं इसके साथ ठीक हूँ, लेकिन वे नहीं बल्कि करेंगे। यह स्पष्ट समाधान होगा। लेकिन अगर मैं सभी डेटा रखने जा रहा हूं और इस आउटलाइन को नहीं हटाऊंगा, तो मैं इस बॉक्सप्लेट को कैसे बेहतर तरीके से पेश कर सकता हूं? विभाजन की धुरी? क्या केवल पहले ग्राफ का उपयोग करना स्वीकार्य है और ध्यान दें कि इसका निर्माण सभी डेटा को शामिल करने के लिए किया गया था? (यह विकल्प मुझे बेईमान लगता है)। कोई भी सलाह बहुत उपयोगी होगी।


5
दोनों प्लॉट क्यों नहीं पेश किए ?
एलेक्सिस

जवाबों:


23

मैं कहूंगा कि इन आंकड़ों की तरह आपको वास्तव में एक परिवर्तित पैमाने पर परिणाम दिखाने की आवश्यकता है। यह पहला अनिवार्य है और एक बॉक्स प्लॉट को आकर्षित करने के तरीके से अधिक महत्वपूर्ण मुद्दा है।

लेकिन मैं फ्रैंक हार्रेल को एक न्यूनतम बॉक्स प्लॉट की तुलना में कुछ अधिक जानकारीपूर्ण, कुछ चरम बिंदुओं की पहचान के साथ आग्रह करता हूं। आपके पास बहुत अधिक जानकारी दिखाने के लिए पर्याप्त स्थान है। यहाँ कई उदाहरणों में से एक हाइब्रिड बॉक्स और क्वांटाइल प्लॉट है। जैसा कि आपके डेटा में, दो समूहों की तुलना की जा रही है।

यहाँ छवि विवरण दर्ज करें

मैं इन दोनों बिंदुओं को एक-एक करके और अधिक कहूंगा।

बदला हुआ पैमाना

सबसे सरल मामले में, आपके सभी मूल्य सकारात्मक हो सकते हैं और आपको पहले एक लघुगणकीय पैमाने का उपयोग करने का प्रयास करना चाहिए।

यदि आपके पास सटीक शून्य है, तो एक वर्गमूल या क्यूब रूट स्केल अभी भी चरम तिरछापन में सुधार करेगा। कुछ लोग लॉग (मान + स्थिरांक) से खुश हैं, जहां ज़ीरोस का मुकाबला करने के तरीके के रूप में निरंतर सबसे अधिक 1 है।

एक तब्दील पैमाने का उपयोग करने के बॉक्स भूखंडों के निहितार्थ सूक्ष्म हैं।

यदि आप ऊपरी चतुर्थांश + 1.5 IQR या निचले चतुर्थक - 1.5 IQR से परे सभी बिंदुओं को दिखाने के लिए आम टकेय सम्मेलन का उपयोग करते हैं, तो यकीनन उन सीमाओं की गणना तब्दील पैमाने पर की जानी चाहिए। यह मूल सीमा पर उन सीमाओं की गणना के रूप में एक ही नहीं है, फिर रूपांतरण।

इसके बजाय मैं समर्थन करता हूँ कि व्हिस्कर्स के सिरों के लिए मात्राओं के चयन के लिए अभी भी अल्पसंख्यक सम्मेलन हो रहा है। इसके कई फायदों में से एक यह है कि ज्यादातर मामलों में ग्राफिकल उद्देश्यों के लिए क्वांटाइल = क्वांटाइल का रूपांतरण, कम से कम पर्याप्त रूप से पर्याप्त। (छोटा प्रिंट जब भी मात्राओं की गणना आसन्न आदेश आँकड़ों के बीच रैखिक प्रक्षेप द्वारा की जाती है।)

इस मात्रात्मक सम्मेलन को क्लीवलैंड (1985) द्वारा काफी प्रमुखता से सुझाया गया था। रिकॉर्ड के लिए, चौकड़ी के लिए बक्से के साथ बढ़ाया बॉक्स भूखंडों, बाहरी ऑक्टाइल्स (12.5 और 87.5% अंक) के लिए पतले बक्से और भूगोल और जलवायु विज्ञान में डेटा के स्ट्रिप प्लॉट (जैसे) मैथ्यू (1936) और ग्रोव (1956) के तहत उपयोग किए गए थे। नाम "फैलाव आरेख"।

बॉक्स प्लॉट से ज्यादा

बॉक्स प्लॉट्स का आविष्कार लगभग 1970 के आसपास तुकी द्वारा किया गया था और उनकी 1977 की पुस्तक में सबसे अधिक दृष्टिगोचर किया गया था। उनका अधिकांश उद्देश्य ऐसे ग्राफ़ को बढ़ावा देना था जो अनौपचारिक अन्वेषण में पेन (सिल) और कागज का उपयोग करके जल्दी से तैयार किए जा सकते हैं। वह संभावित बाहरी लोगों की पहचान करने के तरीके भी सुझा रहा था। यह ठीक था, लेकिन अब हम सभी के पास कंप्यूटरों तक पहुंच है, यह रेखांकन दिखाने के लिए कोई दर्द नहीं है, यदि सभी डेटा नहीं हैं, तो कम से कम अधिक विस्तृत विवरण। बॉक्स भूखंडों की सारांश भूमिका मूल्यवान है, लेकिन एक ग्राफ ठीक संरचना भी दिखा सकता है, बस मामले में यह दिलचस्प या महत्वपूर्ण है। (और शोधकर्ताओं का मानना ​​है कि यह निर्बाध है या महत्वहीन हो सकता है कि उनके पाठकों के लिए और अधिक हड़ताली हो।)

वास्तव में जो सबसे अच्छा काम करता है उसके बारे में विनम्र असहमति के लिए बहुत जगह है, लेकिन मेरे विचार में नंगे बॉक्स भूखंडों को ओवरसोल्ड किया गया है।

Stata उपयोगकर्ता उस प्रोग्राम पर अधिक पा सकते हैं जिसने इस Statalist पोस्ट में आंकड़ा आकर्षित किया । अन्य सॉफ़्टवेयर के उपयोगकर्ताओं को किसी चीज़ को अच्छा या बेहतर बनाने में कोई कठिनाई नहीं होनी चाहिए (अन्यथा उस सॉफ़्टवेयर का उपयोग क्यों करें?)।

क्लीवलैंड, डब्ल्यूएस 1985। ग्राफिंग डेटा के तत्व। मोंटेरे, सीए: वड्सवर्थ।

ग्रोव, एटी 1956। नाइजीरिया में मिट्टी का क्षरण। स्टील, आरडब्ल्यू और फिशर में, ब्रिटिश उष्णकटिबंधीय भूमि पर सीए (एड्स) भौगोलिक निबंध। लंदन: जॉर्ज फिलिप, 79-111।

मैथ्यूज, एचए 1936। कुछ परिचित भारतीय वर्षा का एक नया दृश्य। स्कॉटिश भौगोलिक पत्रिका 52: 84-97।

Tukey, JW 1977. खोजी डेटा विश्लेषण। पढ़ना, एमए: एडिसन-वेस्ले।


1
मैंने पहले कभी बॉक्स प्लॉट्स और ईसीडीएफ के ऐसे जूसकैप नहीं देखे हैं। बहुत कूल! एक अलग पैनल में दो ईसीडीएफ को ओवरले करने के बारे में आप क्या सोचते हैं?
फ्रैंक हर्रेल

2
@ फ्रेंक हरेल धन्यवाद। ओवरलेइंग एक अच्छा विचार है। उदाहरण के लिए देखें stata-journal.com/sjpdf.html?articlenum=gr0018 मेरे काम के कुछ उदाहरणों के लिए।
निक कॉक्स

14

निक के उत्कृष्ट जवाब से कुछ भी दूर नहीं करने के लिए, जो मुझे लगता है कि अच्छी तरह से एक टिक और अपवोट के लायक है - लेकिन मैं कुछ संभावनाओं का पता लगाना चाहता था।

परिमाण के कई आदेशों में इस तरह के भारी तिरछा डेटा के साथ, लॉग-स्केल पर साजिश करना अक्सर काफी खुलासा होता है; ध्यान दें कि आप अभी भी मूल मूल्यों में टिक मार्क और टिक मार्क लेबल कर सकते हैं। (मैं परिवर्तनों से संबंधित निक के बिंदुओं से सहमत हूं, इसलिए मैं उस पर और विस्तार नहीं करूंगा।)

परिवर्तन के अलावा एक अन्य विकल्प यह है कि आप अपने दूसरे प्लॉट जैसा कुछ करें, लेकिन उन सभी मूल्यों का संकेत शामिल करें जिन्हें प्लॉट नहीं किया गया है:

  यहाँ छवि विवरण दर्ज करें

इस तरह आप आउटलेर्स को हटा नहीं रहे हैं , बस उन्हें अलग तरह से प्रदर्शित कर रहे हैं ।

हालाँकि, मैं फ्रैंक और निक को एक सादे बॉक्सप्लॉट की तुलना में अधिक सूचनात्मक प्रदर्शन का उपयोग करने का सुझाव देने में शामिल होऊंगा - निक की पोस्ट में क्वांटाइल प्लॉट के साथ एक बॉक्सप्लेट का संयोजन एक विशेष रूप से अच्छी धारणा लगती है, हालांकि कोई भी क्वांटाइल प्लॉट को हल्के से (या नीचे) प्लॉट कर सकता है। , यहाँ के रूप में) इसके बगल में संबंधित बॉक्स:

  यहाँ छवि विवरण दर्ज करें

यदि आप ऐसा कुछ नहीं कर रहे हैं (सिर्फ एक सादे बॉक्सप्लेट के साथ जा रहे हैं, तो), मैं आपको काफी संकरे बॉक्स सुझाएगा।


3
Superimposing क्वांटाइल और बॉक्स प्लॉट आकर्षक भी है। यह रेखांकित करता है कि बॉक्स प्लॉट क्वांटाइल प्लॉट की कमी है, हालांकि कुछ बॉक्स प्लॉट फिर से बेमानी लग सकते हैं। दो रेखांकन के बीच के रिश्ते पर जोर देने के लिए, उदाहरण के लिए, परजेन, ई। 1979. नॉनपैमेट्रिक सांख्यिकीय डेटा मॉडलिंग। जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन 74: 105-121
निक कॉक्स

क्या आपके पास ओपी का डेटासेट है? या आप ग्राफ को स्क्रैप कर रहे हैं / इसे फेक कर रहे हैं?
निक कॉक्स

2
@ बस इसे फेक, मूल रूप से; मैंने प्रभावी रूप से चरम बिंदुओं को (केवल हाथ से, वहां बहुत कम) स्क्रैप किया था, और फिर ज्ञात मूल्यों (3 चतुर्थक और न्यूनतम) और ऊपरी चतुर्थक और अंत के बीच 3 वर्दी से नमूना करके ऊपरी चतुर्थक के नीचे मान उत्पन्न किए। घातीय के साथ ऊपरी मूंछें, फिर चरम बिंदुओं को जोड़ा (बस इतना है कि मेरे बॉक्सप्लॉट समान दिखेंगे)। कम से कम यह विचार का सार है। चरम बिंदु सटीक नहीं होंगे, इसलिए मेरे प्लॉट पर मुद्रित मूल्य उदाहरण की तरह हैं।
Glen_b -Reinstate Monica

@Glen_b यदि आप चाहें, तो मैं एक अलग प्रश्न पूछ सकता हूं, लेकिन बॉक्सॉट के साथ क्वांटाइल प्लॉट को ओवरले करने के लिए आपने किस विधि का उपयोग किया?
तवर्रोक

@ टैक्रॉक यह लिखा है कि मुझे लगता है कि मैं लिख रहा हूँ, क्योंकि यह ढाई साल है। स्पष्ट बात यह है pointsकि मात्रात्मक मूल्यों को प्रदर्शित करने के लिए कॉल किया जाता है (यह xs=sort(x); points(ppoints(xs),xs)बॉक्सप्लॉट के बाद की रेखाओं के साथ कुछ ऐसा दिखता है , लेकिन करीबी परीक्षा में अंक बॉक्सप्लेट के नीचे होते हैं , इसलिए यह प्लॉट हो सकता है तब add = TRUE के साथ बॉक्सप्लेट हो सकता है) तब बॉक्सप्लॉट हो सकता था, फिर ऊपर की ओर
बॉक्सप्लेट इंगित करता है

5

मैं विस्तारित बॉक्स प्लॉट या वायलिन भूखंडों को पसंद करता हूं क्योंकि उनमें बहुत अधिक जानकारी होती है। मैंने संयुक्त नमूनों के 0.01 और 0.99 मात्राओं के लिए बॉक्स प्लॉटों को बढ़ाया। देखें http://biostat.mc.vanderbilt.edu/wiki/pub/Main/StatGraphCourse/graphscourse.pdf जानकारी के लिए।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.