मैं कहूंगा कि इन आंकड़ों की तरह आपको वास्तव में एक परिवर्तित पैमाने पर परिणाम दिखाने की आवश्यकता है। यह पहला अनिवार्य है और एक बॉक्स प्लॉट को आकर्षित करने के तरीके से अधिक महत्वपूर्ण मुद्दा है।
लेकिन मैं फ्रैंक हार्रेल को एक न्यूनतम बॉक्स प्लॉट की तुलना में कुछ अधिक जानकारीपूर्ण, कुछ चरम बिंदुओं की पहचान के साथ आग्रह करता हूं। आपके पास बहुत अधिक जानकारी दिखाने के लिए पर्याप्त स्थान है। यहाँ कई उदाहरणों में से एक हाइब्रिड बॉक्स और क्वांटाइल प्लॉट है। जैसा कि आपके डेटा में, दो समूहों की तुलना की जा रही है।
मैं इन दोनों बिंदुओं को एक-एक करके और अधिक कहूंगा।
बदला हुआ पैमाना
सबसे सरल मामले में, आपके सभी मूल्य सकारात्मक हो सकते हैं और आपको पहले एक लघुगणकीय पैमाने का उपयोग करने का प्रयास करना चाहिए।
यदि आपके पास सटीक शून्य है, तो एक वर्गमूल या क्यूब रूट स्केल अभी भी चरम तिरछापन में सुधार करेगा। कुछ लोग लॉग (मान + स्थिरांक) से खुश हैं, जहां ज़ीरोस का मुकाबला करने के तरीके के रूप में निरंतर सबसे अधिक 1 है।
एक तब्दील पैमाने का उपयोग करने के बॉक्स भूखंडों के निहितार्थ सूक्ष्म हैं।
यदि आप ऊपरी चतुर्थांश + 1.5 IQR या निचले चतुर्थक - 1.5 IQR से परे सभी बिंदुओं को दिखाने के लिए आम टकेय सम्मेलन का उपयोग करते हैं, तो यकीनन उन सीमाओं की गणना तब्दील पैमाने पर की जानी चाहिए। यह मूल सीमा पर उन सीमाओं की गणना के रूप में एक ही नहीं है, फिर रूपांतरण।
इसके बजाय मैं समर्थन करता हूँ कि व्हिस्कर्स के सिरों के लिए मात्राओं के चयन के लिए अभी भी अल्पसंख्यक सम्मेलन हो रहा है। इसके कई फायदों में से एक यह है कि ज्यादातर मामलों में ग्राफिकल उद्देश्यों के लिए क्वांटाइल = क्वांटाइल का रूपांतरण, कम से कम पर्याप्त रूप से पर्याप्त। (छोटा प्रिंट जब भी मात्राओं की गणना आसन्न आदेश आँकड़ों के बीच रैखिक प्रक्षेप द्वारा की जाती है।)
इस मात्रात्मक सम्मेलन को क्लीवलैंड (1985) द्वारा काफी प्रमुखता से सुझाया गया था। रिकॉर्ड के लिए, चौकड़ी के लिए बक्से के साथ बढ़ाया बॉक्स भूखंडों, बाहरी ऑक्टाइल्स (12.5 और 87.5% अंक) के लिए पतले बक्से और भूगोल और जलवायु विज्ञान में डेटा के स्ट्रिप प्लॉट (जैसे) मैथ्यू (1936) और ग्रोव (1956) के तहत उपयोग किए गए थे। नाम "फैलाव आरेख"।
बॉक्स प्लॉट से ज्यादा
बॉक्स प्लॉट्स का आविष्कार लगभग 1970 के आसपास तुकी द्वारा किया गया था और उनकी 1977 की पुस्तक में सबसे अधिक दृष्टिगोचर किया गया था। उनका अधिकांश उद्देश्य ऐसे ग्राफ़ को बढ़ावा देना था जो अनौपचारिक अन्वेषण में पेन (सिल) और कागज का उपयोग करके जल्दी से तैयार किए जा सकते हैं। वह संभावित बाहरी लोगों की पहचान करने के तरीके भी सुझा रहा था। यह ठीक था, लेकिन अब हम सभी के पास कंप्यूटरों तक पहुंच है, यह रेखांकन दिखाने के लिए कोई दर्द नहीं है, यदि सभी डेटा नहीं हैं, तो कम से कम अधिक विस्तृत विवरण। बॉक्स भूखंडों की सारांश भूमिका मूल्यवान है, लेकिन एक ग्राफ ठीक संरचना भी दिखा सकता है, बस मामले में यह दिलचस्प या महत्वपूर्ण है। (और शोधकर्ताओं का मानना है कि यह निर्बाध है या महत्वहीन हो सकता है कि उनके पाठकों के लिए और अधिक हड़ताली हो।)
वास्तव में जो सबसे अच्छा काम करता है उसके बारे में विनम्र असहमति के लिए बहुत जगह है, लेकिन मेरे विचार में नंगे बॉक्स भूखंडों को ओवरसोल्ड किया गया है।
Stata उपयोगकर्ता उस प्रोग्राम पर अधिक पा सकते हैं जिसने इस Statalist पोस्ट में आंकड़ा आकर्षित किया । अन्य सॉफ़्टवेयर के उपयोगकर्ताओं को किसी चीज़ को अच्छा या बेहतर बनाने में कोई कठिनाई नहीं होनी चाहिए (अन्यथा उस सॉफ़्टवेयर का उपयोग क्यों करें?)।
क्लीवलैंड, डब्ल्यूएस 1985। ग्राफिंग डेटा के तत्व। मोंटेरे, सीए: वड्सवर्थ।
ग्रोव, एटी 1956। नाइजीरिया में मिट्टी का क्षरण। स्टील, आरडब्ल्यू और फिशर में, ब्रिटिश उष्णकटिबंधीय भूमि पर सीए (एड्स)
भौगोलिक निबंध। लंदन: जॉर्ज फिलिप, 79-111।
मैथ्यूज, एचए 1936। कुछ परिचित भारतीय वर्षा का एक नया दृश्य। स्कॉटिश भौगोलिक पत्रिका 52: 84-97।
Tukey, JW 1977. खोजी डेटा विश्लेषण। पढ़ना, एमए: एडिसन-वेस्ले।