एक बॉक्सप्लॉट का उद्देश्य डेटा के अपेक्षाकृत छोटे सेट को एक तरह से संक्षेप में प्रस्तुत करना है जो स्पष्ट रूप से दिखाता है
एक केंद्रीय मूल्य।
"विशिष्ट" मूल्यों का प्रसार।
व्यक्तिगत मूल्य जो प्रसार के सापेक्ष केंद्रीय मूल्य से इतना अधिक प्रस्थान करते हैं, कि उन्हें विशेष ध्यान देने के लिए और अलग से पहचाना जाता है (उदाहरण के लिए, नाम से)। इन्हें "पहचाने गए मान" कहा जाता है।
यह एक मजबूत तरीके से किया जाना है : इसका मतलब है कि बॉक्सप्लेट को सराहनीय रूप से अलग नहीं दिखना चाहिए, जब डेटा मानों में से एक, या अपेक्षाकृत छोटे हिस्से को मनमाने ढंग से बदल दिया जाए।
इसका आविष्कारक जॉन टुकी द्वारा अपनाया गया समाधान क्रमबद्ध आँकड़ों का उपयोग करना है - जो डेटा को सबसे कम से लेकर उच्चतम तक - क्रमबद्ध तरीके से क्रमबद्ध करता है। सादगी के लिए (उन्होंने मानसिक रूप से या पेंसिल और कागज के साथ गणना की) तुकी ने मध्यस्थों पर ध्यान केंद्रित किया : संख्याओं के बैचों का मध्य मान। (यहां तक कि गिनती के साथ बैचों के लिए, टुकी ने दो मध्य मूल्यों के मध्य बिंदु का उपयोग किया।) एक माध्यिका आधे डेटा तक परिवर्तनों के लिए प्रतिरोधी है, जिस पर यह आधारित है, यह एक मजबूत सांख्यिकीय के रूप में उत्कृष्ट बनाता है। इस प्रकार:
केंद्रीय मूल्य सभी आंकड़ों की माध्यिका साथ अनुमान है।
प्रसार "निचले आधे" और - - सभी डेटा करने के लिए या मंझला ऊपर बराबर - "ऊपरी हिस्से" का माध्यिकाओं के बीच अंतर के साथ अनुमान लगाया गया है सभी डेटा करने के लिए या मंझला से भी कम समय के बराबर। इन दो मध्यस्थों को ऊपरी और निचले "टिका" या "चौथा" कहा जाता है। वे आजकल ऐसी चीज़ों से प्रतिस्थापित हो रहे हैं जिन्हें कर्टाइल कहा जाता है (जिनकी कोई सार्वभौमिक परिभाषा नहीं है, अफसोस)।
स्क्रीनिंग आउटलेर्स के लिए अदृश्य बाड़ को 1.5 (और केंद्रीय मूल्य से दूर) टिका के बाहर फैलने के लिए 3 बार लगाया जाता है।
- "प्रत्येक छोर पर मूल्य निकटतम है, लेकिन अभी भी अंदर है, आंतरिक बाड़ 'आसन्न' है।"
- पहली बाड़ से परे मानों को "आउटलेयर" कहा जाता है।
- दूसरी बाड़ से परे मूल्य "बहुत दूर हैं।"
( 60 के दशक के हिप्पी को याद करने के लिए पर्याप्त पुराने वे मजाक को समझेंगे।)
चूंकि प्रसार डेटा मूल्यों का अंतर है, इसलिए इन बाड़ में मूल डेटा के समान माप की इकाइयां हैं: यह प्रश्न में "दूरी" की भावना है।
पहचान करने के लिए डेटा मूल्यों के बारे में, टुकी ने लिखा
हम कम से कम चरम मूल्यों की पहचान कर सकते हैं, और कुछ और की पहचान करने के लिए अच्छा कर सकते हैं।
मंझला, टिका प्रदर्शित करने के लिए कोई भी चित्रमय विधि, और पहचाने गए मान यकीनन "बॉक्सप्लेट" (मूल रूप से, "बॉक्स-एंड-व्हिस्कर प्लॉट") कहलाने के योग्य हैं। आमतौर पर बाड़ का चित्रण नहीं किया जाता है। तुकी के डिजाइन में एक आयत होती है जिसमें मध्यमा पर "कमर" के साथ टिका होता है। विनीत रेखा-जैसी "मूंछें" टिका से बाहरी अंतर मानों (बॉक्स के ऊपर और नीचे दोनों) का विस्तार करती हैं। आमतौर पर ये अंतर पहचाने गए मान ऊपर दिए गए आसन्न मान हैं।
नतीजतन, एक बॉक्सप्लॉट की डिफ़ॉल्ट उपस्थिति व्हिकर्स को सबसे चरम गैर-आउटलाइंग डेटा मानों तक विस्तारित करने और पहचान करने के लिए (पाठ लेबल के माध्यम से) है जिसमें डेटा व्हिस्की और सभी आउटलेयर के सिरों को समाहित करता है । उदाहरण के लिए, तुपुंगटितो ज्वालामुखी, आकृति के दाईं ओर दर्शाए गए ज्वालामुखी ऊंचाइयों के डेटा के लिए उच्च आसन्न मूल्य है: व्हिस्कर वहाँ बंद हो जाता है। तुपुंगटितो और सभी लम्बे ज्वालामुखी अलग-अलग पहचाने जाते हैं।
ताकि यह डेटा को ईमानदारी से प्रदर्शित करेगा, ग्राफिक में दूरी डेटा मूल्यों में अंतर के लिए आनुपातिक है। (प्रत्यक्ष आनुपातिकता से कोई भी प्रस्थान टुटे के (1983) शब्दावली में एक "झूठ का कारक" पेश करेगा।)
टुकी की पुस्तक EDA (पृष्ठ 41) के ये दो बॉक्सप्लेट घटक दर्शाते हैं। यह उल्लेखनीय है कि उसने बाईं ओर स्टेट्स डेटासेट के उच्च और निम्न सिरों पर गैर-बाहरी मानों की पहचान की है और दाईं ओर ज्वालामुखी ऊंचाइयों का एक कम गैर-बाहरी मान है। यह नियमों और निर्णय के परस्पर क्रिया का उदाहरण देता है जो पुस्तक को विकृत करता है।
(आप बता सकते हैं कि ये पहचाने गए आंकड़े गैर-आउटलाइंग हैं, क्योंकि आप बाड़ के स्थानों का अनुमान लगा सकते हैं। उदाहरण के लिए, राज्य की ऊंचाइयों की ऊंचाई 11,000 और 1,000 के करीब है, जो 10,000 के आसपास फैल रही है। 1.5 और 3 से गुणा करके दूरी। 15,000 और 30,000 की संख्या। इस प्रकार, अदृश्य ऊपरी बाड़ 11,000 + 15,000 = 26,000 के पास और निचला बाड़ 1,000 - 15,000 पर, शून्य से नीचे होगा। दूर की बाड़ 11,000 + 30,000 = 41,000 और 1,000 - 30,000 = के पास होगी। -29,000।)
संदर्भ
टफटे, एडवर्ड। मात्रात्मक जानकारी का दृश्य प्रदर्शन। चेशायर प्रेस, 1983।
टुके, जॉन। अध्याय 2, EDA । एडिसन-वेस्ले, 1977।