मानक बॉक्स-भूखंडों का एक सामान्यीकरण है जो मुझे पता है जिसमें तिरछे डेटा की लंबाई को समायोजित करने के लिए व्हिस्की की लंबाई समायोजित की जाती है। विवरण को बहुत स्पष्ट और संक्षिप्त श्वेत पत्र (वैंडर्विरेन, ई।, ह्यूबर्ट, एम। (2004) "तिरछे वितरण के लिए एक समायोजित बॉक्सप्लॉट" में स्पष्ट किया गया है, यहां देखें )।
इस ( ) के साथ-साथ एक matlab एक (पुस्तकालय में ) को लागू करने का एक ।strongbase :: adjbox () libraआरrobustbase :: adjbox ()तुला
मुझे व्यक्तिगत रूप से यह डेटा परिवर्तन का एक बेहतर विकल्प लगता है (हालांकि यह एक तदर्थ नियम पर आधारित है, श्वेत पत्र देखें)।
संयोग से, मुझे लगता है कि मुझे यहाँ व्हिबर के उदाहरण में कुछ जोड़ना है। विस्तार करने के लिए कि हम मूंछ के व्यवहार पर चर्चा कर रहे हैं, हमें वास्तव में इस बात पर भी विचार करना चाहिए कि दूषित डेटा पर विचार करने पर क्या होता है:
library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20, 4, 4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox( B1, col="red", main="adjusted boxplot of data")
इस संदूषण मॉडल में, बी 1 में अनिवार्य रूप से 20 प्रतिशत डेटा के लिए लॉग-नॉर्मल डिस्ट्रीब्यूशन सेव होता है जो आधे बाएं, आधे दाएं आउटलेयर (एडजबॉक्स का ब्रेक डाउन प्वाइंट नियमित बॉक्सप्लेट्स के समान होता है, यानी यह मान लेता है कि ज्यादातर पर 25 प्रतिशत डेटा खराब हो सकता है)।
रेखांकन रूपांतरित डेटा (वर्गमूल परिवर्तन का उपयोग करके) के क्लासिकल बॉक्सप्लेट को चित्रित करता है
और गैर-रूपांतरित डेटा के समायोजित बॉक्सप्लॉट।
समायोजित बॉक्सप्लॉट्स की तुलना में, पूर्व विकल्प वास्तविक आउटलेयर को मास्क करता है और आउटलेर्स के रूप में अच्छे डेटा को लेबल करता है। सामान्य तौर पर, यह अपमानजनक बिंदुओं को बाह्यक के रूप में वर्गीकृत करके डेटा में विषमता के किसी भी सबूत को छिपाने के लिए काम करेगा।
इस उदाहरण में, डेटा के वर्गमूल पर मानक बॉक्सप्लॉट का उपयोग करने का दृष्टिकोण 13 आउटलेयर (सभी दाईं ओर) पाता है, जबकि समायोजित बॉक्सप्लॉट में 10 सही और 14 बाएं आउटलेयर मिलते हैं।
संपादित करें: संक्षेप में बॉक्स भूखंड समायोजित।
'शास्त्रीय' बॉक्सप्लॉट में मूंछों को रखा जाता है:
क्यू ३क्यू1 -1.5 * IQR और + 1.5 * IQRक्यू3
जहां IQR इंटर- रेंज है, 25 वाँ प्रतिशत है और डेटा का 75 वाँ प्रतिशत है। अंगूठे का नियम बाड़ के बाहर सब कुछ संदिग्ध डेटा के रूप में माना जाता है (बाड़ दो मूंछ के बीच अंतराल है)।क्यू ३क्यू1क्यू3
अंगूठे का यह नियम तदर्थ है: औचित्य यह है कि यदि डेटा का अनियंत्रित हिस्सा लगभग गॉसियन है, तो इस नियम का उपयोग करके 1% से कम अच्छे डेटा को खराब के रूप में वर्गीकृत किया जाएगा।
इस बाड़-नियम की एक कमजोरी, जैसा कि ओपी द्वारा बताया गया है, यह है कि दो मूंछों की लंबाई समान है, जिसका अर्थ है कि बाड़-नियम केवल तभी समझ में आता है जब डेटा के अनियंत्रित हिस्से में एक सममित वितरण होता है।
एक लोकप्रिय दृष्टिकोण बाड़-शासन को संरक्षित करना और डेटा को अनुकूलित करना है। विचार कुछ तिरछा सही नीरस परिवर्तन (वर्गमूल या लॉग या अधिक सामान्यतः बॉक्स-कॉक्स ट्रांसफॉर्मेशन) का उपयोग करके डेटा को बदलने के लिए है। यह कुछ गन्दा दृष्टिकोण है: यह परिपत्र तर्क पर निर्भर करता है (परिवर्तन को चुना जाना चाहिए ताकि डेटा के अनियंत्रित हिस्से की तिरछापन को ठीक किया जा सके, जो इस स्तर पर एक अप्रचलित है) और डेटा को व्याख्या करने के लिए कठिन बना देता है नेत्रहीन। किसी भी दर पर, यह एक अजीब प्रक्रिया बनी हुई है, जिसके तहत किसी भी तदर्थ नियम के बाद डेटा को संरक्षित करने के लिए परिवर्तन किया जाता है।
एक विकल्प यह है कि डेटा को अनछुआ छोड़ दिया जाए और व्हिस्की नियम को बदल दिया जाए। समायोजित बॉक्सप्लॉट प्रत्येक व्हिस्कर की लंबाई को डेटा के अनियोजित भाग के तिरछापन को मापने वाले सूचकांक के अनुसार अलग-अलग करने की अनुमति देता है:
exp ( एम , α ) क्यू 3 exp ( एम , β )क्यू1 - 1.5 * IQR और + 1.5 *exp( एम, α )क्यू3exp( एम, β)
जहां , डेटा के अनियंत्रित भाग के तिरछेपन का सूचकांक है (जैसे कि, माध्य डेटा के अनियोजित भाग के लिए स्थान का एक माप है या MAD डेटा के अनियंत्रित भाग के लिए प्रसार का एक माप है) और ऐसी संख्याएँ चुनी जाती हैं, जो बिना कटे हुए तिरछे वितरणों के लिए बाड़ के बाहर लेटने की सम्भावना को कम करती हैं, तिरछे वितरणों के बड़े संग्रह में यह अपेक्षाकृत छोटा होता है (यह बाड़ नियम का तदर्थ भाग है)।α βएमα β
ऐसे मामलों के लिए जब डेटा का अच्छा भाग सममित होता है, और हम शास्त्रीय मूंछ पर वापस आ जाते हैं।एम≈ 0
लेखक अपनी उच्च दक्षता (हालांकि सिद्धांत रूप में किसी भी मजबूत तिरछा सूचकांक का इस्तेमाल किया जा सकता है) की वजह से -के अनुमानक के रूप में मध्य-युगल का उपयोग करते हैं (श्वेत पत्र के संदर्भ देखें)। की इस पसंद के साथ , उन्होंने तब इष्टतम और आनुभविक रूप से गणना की (बड़ी संख्या में तिरछी वितरण का उपयोग करके):एम α βएमएमαβ
exp ( - 4 एम ) क्यू 3 exp ( 3 एम ) एम ≥ 0क्यू1 - 1.5 * IQR और + 1.5 * IQR, यदिexp( - 4 एम)क्यू3exp( 3 एम)एम≥ 0
एक्सप ( - 3 एम ) क्यू 3 एक्सप ( 4 एम ) एम < 0क्यू1 - 1.5 * IQR और + 1.5 * IQR, यदिexp- ( 3 एम)क्यू3exp( 4 एम)एम< ०