क्या पॉइज़न वितरित डेटा के लिए एक बॉक्सप्लेट संस्करण है?


33

मैं जानना चाहूंगा कि क्या कोई बॉक्सप्लॉट वैरिएंट पोइसन वितरित डेटा (या संभवतः अन्य वितरण) के लिए अनुकूलित है?

गॉसियन डिस्ट्रीब्यूशन के साथ, व्हिस्कर्स को एल = क्यू 1 - 1.5 आईक्यूआर और यू = क्यू 3+ 1.5 आईक्यूआर में रखा गया है, बॉक्सप्लेट में संपत्ति है कि लगभग कम आउटलेयर (एल से नीचे के बिंदु) होंगे, क्योंकि उच्च कैपेसिटर्स (यू के ऊपर अंक) हैं। )।

यदि डेटा पोइसन वितरित किया गया है, तो यह अब नहीं पकड़ता है क्योंकि सकारात्मक तिरछापन के कारण हमें Pr (X <L) <Pr (X> U) मिलता है । क्या मूंछों को रखने का कोई वैकल्पिक तरीका है कि यह एक पॉइसन वितरण को 'फिट' करेगा?


2
पहले इसे लॉग इन करने की कोशिश करें? आप यह भी कह सकते हैं कि आप अपने बॉक्सप्लॉट को 'अच्छी तरह से अनुकूलित' करना चाहते हैं।
conjugateprior

2
इस तरह के संशोधन को करने के साथ एक समस्या है - लोगों को मानक बॉक्सप्लाट परिभाषा के लिए उपयोग किया जाता है और सबसे अधिक संभावना यह होगी कि जब आप इसे पसंद करते हैं या नहीं तो भूखंड को देखते हुए। इस प्रकार, यह लाभ की तुलना में अधिक भ्रम ला सकता है।

@mbq:> बॉक्सप्लेट्स वाली बात यह है कि वे एक उपकरण के लिए दो विशेषताओं को जोड़ते हैं; एक डेटा विज़ुअलाइज़ेशन फ़ीचर (बॉक्स) और एक बाहरी पहचान सुविधा (मूंछ)। आप जो कहते हैं वह पूर्व की पूर्ण सत्य है, लेकिन बाद में एक तिरछा समायोजन का उपयोग कर सकता है।
user603

@conjugateprior यहाँ एक Poisson नमूना है: 0, 0, 1, 0, 1, 2, 0, 0, 1, 0, 0 .... बस लॉग लेने के साथ एक समस्या नोटिस?
Glen_b -Reinstate मोनिका

@Glen_b यही कारण है कि यह एक टिप्पणी है एक जवाब नहीं होना चाहिए। और इसके दो भाग क्यों हैं।
कंजुगेटपायर

जवाबों:


31

Boxplots को सभी मामलों में मूंछ के छोर से अधिक होने की कम संभावना को आश्वस्त करने के लिए डिज़ाइन नहीं किया गया था: उनका इरादा है, और आमतौर पर उपयोग किया जाता है, एक डाटासेट के थोक के सरल चित्रमय लक्षण के रूप में। जैसे, डेटा के बहुत ही कम वितरण होने पर भी वे ठीक होते हैं (हालांकि वे लगभग असंबद्ध वितरण के बारे में बहुत अधिक जानकारी प्रकट नहीं कर सकते हैं)।

जब बॉक्सप्लेट्स तिरछे हो जाते हैं, जैसा कि वे एक पॉइसन वितरण के साथ करेंगे, तो अगला चरण अंतर्निहित चर को फिर से व्यक्त करना है (एक मोनोटोनिक के साथ, परिवर्तन बढ़ाना) और बॉक्सप्लॉट को फिर से बनाना। क्योंकि एक पॉइसन वितरण का विचरण अपने मतलब के लिए आनुपातिक है, उपयोग करने के लिए एक अच्छा परिवर्तन वर्गमूल है।

प्रत्येक बॉक्सप्लॉट में 50 आईआईडी दी गई तीव्रता (1 से 10 तक प्रत्येक तीव्रता के लिए दो परीक्षणों के साथ) के साथ एक पॉइसन वितरण से आ रही है। ध्यान दें कि तिरछापन कम होता है।

अगल-बगल के बॉक्सप्लॉट्स

एक वर्गमूल पैमाने पर एक ही डेटा में बॉक्सप्लेट होते हैं जो थोड़े अधिक सममित होते हैं और (सबसे कम तीव्रता को छोड़कर) तीव्रता के बावजूद लगभग बराबर IQR होते हैं)।

रूपांतरित डेटा के बॉक्सप्लेट

संक्षेप में, बॉक्सप्लॉट एल्गोरिथ्म को न बदलें: इसके बजाय डेटा को फिर से व्यक्त करें।


संयोग से, कंप्यूटिंग करने के लिए प्रासंगिक संभावनाएं ये हैं: क्या मौका है कि एक स्वतंत्र सामान्य वेरिएंट ऊपरी (निचले) बाड़ ( ) से अधिक होगा, जैसा कि उसी वितरण से स्वतंत्र ड्रॉ से अनुमानित है ? यू एल एनXULn यह इस तथ्य के लिए जिम्मेदार है कि एक बॉक्सप्लॉट में बाड़ अंतर्निहित वितरण से गणना नहीं की जाती है, लेकिन डेटा से अनुमान लगाया जाता है। ज्यादातर मामलों में, संभावना 1% से बहुत अधिक है! उदाहरण के लिए, यहाँ (10,000 Monte-Carlo परीक्षणों के आधार पर) लॉग (आधार 10) मामले के लिए अवसरों की एक हिस्टोग्राम है :n=9

संभावना का हिस्टोग्राम

(क्योंकि सामान्य वितरण सममित है, यह हिस्टोग्राम दोनों बाड़ पर लागू होता है।) 1% / 2 का लघुगणक लगभग -2.3 है। जाहिर है, अधिकांश समय संभावना इस से अधिक है। समय का लगभग 16% यह 10% से अधिक है!

यह पता चलता है (मैं इस जवाब को विवरण के साथ नहीं बताऊंगा) कि इन अवसरों के वितरण सामान्य मामले (छोटे ) के समान हैं, यहां तक ​​कि 1 के रूप में तीव्रता के पॉइसन वितरण के लिए भी कम है, जो बहुत तिरछा है। मुख्य अंतर यह है कि यह आमतौर पर कम आउटलाइडर को खोजने की संभावना कम है और उच्च आउटरीयर को खोजने के लिए थोड़ा अधिक संभावना है।n


1
+1, मैंने यह धागा पहले नहीं देखा था। मैंने इस पोस्ट में एक अलग तरीके से क्षैतिज नियम के बाद यहां चर्चा किए जाने के लिए (मेरा मानना ​​है) एक ही बिंदु बनाया: क्या सांख्यिकीय सॉफ्टवेयर द्वारा आउटलेर के रूप में चिह्नित किए गए मामलों को हटाना है या नहीं
गंग -

हाँ, यह वही बिंदु @ गंग है - और आपने वहां एक अच्छा जवाब पोस्ट किया है।
whuber

26

मानक बॉक्स-भूखंडों का एक सामान्यीकरण है जो मुझे पता है जिसमें तिरछे डेटा की लंबाई को समायोजित करने के लिए व्हिस्की की लंबाई समायोजित की जाती है। विवरण को बहुत स्पष्ट और संक्षिप्त श्वेत पत्र (वैंडर्विरेन, ई।, ह्यूबर्ट, एम। (2004) "तिरछे वितरण के लिए एक समायोजित बॉक्सप्लॉट" में स्पष्ट किया गया है, यहां देखें )।

इस ( ) के साथ-साथ एक matlab एक (पुस्तकालय में ) को लागू करने का एक ।strongbase :: adjbox () libraRrobustbase::adjbox()libra

मुझे व्यक्तिगत रूप से यह डेटा परिवर्तन का एक बेहतर विकल्प लगता है (हालांकि यह एक तदर्थ नियम पर आधारित है, श्वेत पत्र देखें)।

संयोग से, मुझे लगता है कि मुझे यहाँ व्हिबर के उदाहरण में कुछ जोड़ना है। विस्तार करने के लिए कि हम मूंछ के व्यवहार पर चर्चा कर रहे हैं, हमें वास्तव में इस बात पर भी विचार करना चाहिए कि दूषित डेटा पर विचार करने पर क्या होता है:

library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20,  4,    4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox(      B1,  col="red", main="adjusted boxplot of data")

इस संदूषण मॉडल में, बी 1 में अनिवार्य रूप से 20 प्रतिशत डेटा के लिए लॉग-नॉर्मल डिस्ट्रीब्यूशन सेव होता है जो आधे बाएं, आधे दाएं आउटलेयर (एडजबॉक्स का ब्रेक डाउन प्वाइंट नियमित बॉक्सप्लेट्स के समान होता है, यानी यह मान लेता है कि ज्यादातर पर 25 प्रतिशत डेटा खराब हो सकता है)।

रेखांकन रूपांतरित डेटा (वर्गमूल परिवर्तन का उपयोग करके) के क्लासिकल बॉक्सप्लेट को चित्रित करता है

डेटा के वर्गमूल परिवर्तन पर शास्त्रीय बॉक्सप्लॉट

और गैर-रूपांतरित डेटा के समायोजित बॉक्सप्लॉट।

अन-ट्रांसफ़ॉर्म किए गए डेटा का समायोजित बॉक्सप्लॉट

समायोजित बॉक्सप्लॉट्स की तुलना में, पूर्व विकल्प वास्तविक आउटलेयर को मास्क करता है और आउटलेर्स के रूप में अच्छे डेटा को लेबल करता है। सामान्य तौर पर, यह अपमानजनक बिंदुओं को बाह्यक के रूप में वर्गीकृत करके डेटा में विषमता के किसी भी सबूत को छिपाने के लिए काम करेगा।

इस उदाहरण में, डेटा के वर्गमूल पर मानक बॉक्सप्लॉट का उपयोग करने का दृष्टिकोण 13 आउटलेयर (सभी दाईं ओर) पाता है, जबकि समायोजित बॉक्सप्लॉट में 10 सही और 14 बाएं आउटलेयर मिलते हैं।

संपादित करें: संक्षेप में बॉक्स भूखंड समायोजित।

'शास्त्रीय' बॉक्सप्लॉट में मूंछों को रखा जाता है:

क्यू Q1 -1.5 * IQR और + 1.5 * IQRQ3

जहां IQR इंटर- रेंज है, 25 वाँ प्रतिशत है और डेटा का 75 वाँ प्रतिशत है। अंगूठे का नियम बाड़ के बाहर सब कुछ संदिग्ध डेटा के रूप में माना जाता है (बाड़ दो मूंछ के बीच अंतराल है)।क्यू Q1Q3

अंगूठे का यह नियम तदर्थ है: औचित्य यह है कि यदि डेटा का अनियंत्रित हिस्सा लगभग गॉसियन है, तो इस नियम का उपयोग करके 1% से कम अच्छे डेटा को खराब के रूप में वर्गीकृत किया जाएगा।

इस बाड़-नियम की एक कमजोरी, जैसा कि ओपी द्वारा बताया गया है, यह है कि दो मूंछों की लंबाई समान है, जिसका अर्थ है कि बाड़-नियम केवल तभी समझ में आता है जब डेटा के अनियंत्रित हिस्से में एक सममित वितरण होता है।

एक लोकप्रिय दृष्टिकोण बाड़-शासन को संरक्षित करना और डेटा को अनुकूलित करना है। विचार कुछ तिरछा सही नीरस परिवर्तन (वर्गमूल या लॉग या अधिक सामान्यतः बॉक्स-कॉक्स ट्रांसफॉर्मेशन) का उपयोग करके डेटा को बदलने के लिए है। यह कुछ गन्दा दृष्टिकोण है: यह परिपत्र तर्क पर निर्भर करता है (परिवर्तन को चुना जाना चाहिए ताकि डेटा के अनियंत्रित हिस्से की तिरछापन को ठीक किया जा सके, जो इस स्तर पर एक अप्रचलित है) और डेटा को व्याख्या करने के लिए कठिन बना देता है नेत्रहीन। किसी भी दर पर, यह एक अजीब प्रक्रिया बनी हुई है, जिसके तहत किसी भी तदर्थ नियम के बाद डेटा को संरक्षित करने के लिए परिवर्तन किया जाता है।

एक विकल्प यह है कि डेटा को अनछुआ छोड़ दिया जाए और व्हिस्की नियम को बदल दिया जाए। समायोजित बॉक्सप्लॉट प्रत्येक व्हिस्कर की लंबाई को डेटा के अनियोजित भाग के तिरछापन को मापने वाले सूचकांक के अनुसार अलग-अलग करने की अनुमति देता है:

exp ( एम , α ) क्यू 3 exp ( एम , β )Q1 - 1.5 * IQR और + 1.5 *exp(M,α)Q3exp(M,β)

जहां , डेटा के अनियंत्रित भाग के तिरछेपन का सूचकांक है (जैसे कि, माध्य डेटा के अनियोजित भाग के लिए स्थान का एक माप है या MAD डेटा के अनियंत्रित भाग के लिए प्रसार का एक माप है) और ऐसी संख्याएँ चुनी जाती हैं, जो बिना कटे हुए तिरछे वितरणों के लिए बाड़ के बाहर लेटने की सम्भावना को कम करती हैं, तिरछे वितरणों के बड़े संग्रह में यह अपेक्षाकृत छोटा होता है (यह बाड़ नियम का तदर्थ भाग है)।α βMα β

ऐसे मामलों के लिए जब डेटा का अच्छा भाग सममित होता है, और हम शास्त्रीय मूंछ पर वापस आ जाते हैं।M0

लेखक अपनी उच्च दक्षता (हालांकि सिद्धांत रूप में किसी भी मजबूत तिरछा सूचकांक का इस्तेमाल किया जा सकता है) की वजह से -के अनुमानक के रूप में मध्य-युगल का उपयोग करते हैं (श्वेत पत्र के संदर्भ देखें)। की इस पसंद के साथ , उन्होंने तब इष्टतम और आनुभविक रूप से गणना की (बड़ी संख्या में तिरछी वितरण का उपयोग करके):एम α βMMαβ

exp ( - 4 एम ) क्यू 3 exp ( 3 एम ) एम 0Q1 - 1.5 * IQR और + 1.5 * IQR, यदिexp(4M)Q3exp(3M)M0

एक्सप ( - 3 एम ) क्यू 3 एक्सप ( 4 एम ) एम < 0Q1 - 1.5 * IQR और + 1.5 * IQR, यदिexp(3M)Q3exp(4M)M<0


1
मुझे यह जानने में दिलचस्पी होगी कि आप मेरे उदाहरण "अनहेल्दी" को कैसे ढूंढते हैं - बस इसे ब्रांडिंग करें जैसे कि यह रचनात्मक नहीं है। मैं स्वीकार करूंगा कि उदाहरण कुछ इस मायने में निराशाजनक है कि डेटा परिवर्तन एक शानदार सुधार का प्रतिनिधित्व नहीं करता है। यही पोइसन डिस्ट्रिब्यूशन का दोष है: वे अभी इस सब विश्लेषण के परेशान होने के लायक नहीं हैं!
whuber

@whuber:> सबसे पहले, टोन के लिए खेद है: यह अन-एडेड फर्स्ट ड्राफ्ट से था और इसे सही कर दिया गया है (मैं आमतौर पर शॉर्टहैंड पैराग्राफ लिखता हूं जिसका अर्थ है स्वयं पर ध्यान देना, फिर बार-बार उनके ऊपर जाना - यह एक खो गया लंबी अंतर-घुमावदार प्रतिक्रिया)। अब केवल आलोचक के लिए: आपका उदाहरण अनियंत्रित डेटा के मामले में परिवर्तन का उपयोग करके समाधान के व्यवहार को दर्शाता है। IMHO व्हिस्कर नियम को प्रारंभिक रूप से लागू करना चाहिए- एक संदूषण मॉडल को ध्यान में रखकर मूल्यांकन किया जाना चाहिए।
user603

@user स्पष्टीकरण के लिए धन्यवाद। मुझे आलोचना का कोई मतलब नहीं है, जो दिलचस्प है, और मैं समायोजित बॉक्सप्लॉट्स के संदर्भों की सराहना करता हूं। (+1)
whuber

मैं user603 से सहमत हूं कि क्या आप एक शुद्ध वितरण का निरीक्षण करते हैं (जैसे कि उत्तरदाता के रूप में) में अंतर है या किसी वितरण से डेटा है, साथ ही कुछ आउटलेयर ( संदूषण के रूप में यहां चर्चा की गई है )। मेरे दृष्टिकोण से, वास्तविक सेटिंग्स में, आउटलेर के लिए स्कैन करने के लिए एक बॉक्सप्लेट का उपयोग किया जाता है। बाद में, बॉक्सप्लेट्स का विश्लेषण जो आउटलेयर को छोड़ देता है, किसी तरह बिंदु को याद करता है। इसलिए, यह उत्तर बॉक्सप्लॉट्स का उपयोग करने के उद्देश्य से बेहतर सेवा प्रदान करता है।
हेनरिक

2
@ हेनरिक की पहचान आउटलेयर बॉक्सप्लेट के कई उद्देश्यों में से एक है। Tukey का दृष्टिकोण पहले डेटा के एक उपयुक्त पुन: अभिव्यक्ति को खोजने के लिए था जिसने उनके वितरण के मध्य को लगभग सममित बना दिया था। यह तिरछापन के लिए किसी भी समायोजन की आवश्यकता को कम करता है। यह पहले से ही बॉक्सप्लॉट्स के बीच तुलना की अनुमति के मामले में बहुत कुछ पूरा करता है, जो कि वे वास्तव में उपयोगी बन जाते हैं। "एडजस्ट करना" मूंछ पूरी तरह से इस बुनियादी मुद्दे पर याद आती है। इसलिए मैं समायोजन का उपयोग करने से सावधान रहूंगा: इसकी आवश्यकता एक संकेत है कि विश्लेषण अच्छी तरह से नहीं किया जा रहा है।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.