क्या मैं मल्टीमॉडल वितरण के लिए बॉक्स-एंड-व्हिस्कर प्लॉट का उपयोग कर सकता हूं या केवल अनिमॉडल वितरण के लिए?
क्या मैं मल्टीमॉडल वितरण के लिए बॉक्स-एंड-व्हिस्कर प्लॉट का उपयोग कर सकता हूं या केवल अनिमॉडल वितरण के लिए?
जवाबों:
समस्या यह है कि सामान्य बॉक्सप्लॉट * आमतौर पर मोड की संख्या का संकेत नहीं दे सकता है। जबकि कुछ (आमतौर पर दुर्लभ) परिस्थितियों में यह स्पष्ट संकेत प्राप्त करना संभव है कि मोड की सबसे छोटी संख्या 1 से अधिक हो, आमतौर पर किसी दिए गए बॉक्सप्लॉट में एक या किसी भी बड़ी संख्या के साथ संगत होती है।
* सामान्य प्रकार के बॉक्सप्लेट के कई संशोधनों का सुझाव दिया गया है जो घनत्व में बदलाव को इंगित करने के लिए अधिक करते हैं और कई मोड की पहचान करने के लिए कैम का उपयोग किया जाता है, लेकिन मुझे नहीं लगता कि वे इस प्रश्न का उद्देश्य हैं।
उदाहरण के लिए, जबकि इस साजिश करता है कम से कम दो मोड की उपस्थिति का संकेत (डेटा इतनी के रूप में ठीक दो के लिए उत्पन्न किया गया) -
इसके विपरीत, इसके वितरण में दो बहुत स्पष्ट मोड हैं, लेकिन आप बस बॉक्सप्लेट से बिल्कुल नहीं बता सकते हैं:
Boxplots जरूरी नहीं कि वितरण के बारे में बहुत सारी जानकारी देते हैं। मूंछ के बाहर किसी भी चिह्नित बिंदु की अनुपस्थिति में, उनके पास केवल पांच मान हैं, और एक पांच नंबर सारांश वितरण को बहुत कम नहीं करता है । हालांकि, ऊपर दिया गया पहला आंकड़ा एक ऐसे मामले को दर्शाता है जहां सीएफडी को अनिवार्य रूप से एक अनिमॉडल डिस्ट्रीब्यूशन (कम से कम 100 के सैंपल साइज पर ) से अलग करने के लिए "पिन डाउन" किया गया है - कोई भी अनिमॉडल सीएफडी, सीएफडी पर अड़चन के अनुरूप नहीं है उस स्थिति में, जिसे पहली तिमाही में अपेक्षाकृत तेज वृद्धि की आवश्यकता होती है, बीच की छमाही में वृद्धि की एक छोटी दर (औसतन) एक छोटी दर और फिर अंतिम तिमाही में एक और तेज वृद्धि में बदल जाती है।
दरअसल, यहां आंकड़ा 1 (जो मुझे लगता है कि एक कामकाजी कागज है जिसे बाद में [1] में प्रकाशित किया गया है) एक ही बॉक्स प्लॉट के साथ चार अलग-अलग डेटा सेट दिखाता है।
मेरे पास वह डेटा हाथ में नहीं है, लेकिन एक समान डेटा सेट बनाने के लिए यह एक तुच्छ मामला है - जैसा कि पांच-नंबर सारांश से संबंधित लिंक में इंगित किया गया है, हमें केवल आयताकार बक्से के भीतर झूठ बोलने के लिए हमारे वितरण को बाध्य करने की आवश्यकता है जो पांच नंबर सारांश हमें प्रतिबंधित करता है।
यहाँ आर कोड है जो कागज में उसी तरह का डेटा उत्पन्न करेगा:
x1 = qnorm(ppoints(1:100,a=-.072377))
x1 = x1/diff(range(x1))*18+10
b = fivenum(x1) # all of the data has this five number summary
x2 = qnorm(ppoints(1:48));x2=x2/diff(range(x2))*.6
x2 = c(b[1],x2+b[2],.31+b[2],b[4]-.31,x2+b[4],b[5])
d = .1183675; x3 = ((0:34)-34/2)/34*(9-d)+(5.5-d/2)
x3 = c(x3,rep(9.5,15),rep(10.5,15),20-x3)
x4 = c(1,rep(b[2],24),(0:49)/49*(b[4]-b[2])+b[2],(0:24)/24*(b[5]-b[4])+b[4])
यहां पर उपरोक्त डेटा (पेपर को छोड़कर, मैं यहां सभी चार बॉक्सप्लॉट दिखाता हूं) के समान प्रदर्शन किया गया है:
हालांकि, खबरदार - हिस्टोग्राम की समस्याएँ भी हो सकती हैं ; वास्तव में, हम इसकी समस्याओं में से एक को यहाँ देखते हैं, क्योंकि तीसरे "पीक" हिस्टोग्राम में वितरण वास्तव में विशिष्ट रूप से बिमोडल है; हिस्टोग्राम बिन की चौड़ाई बस इसे दिखाने के लिए बहुत चौड़ी है। इसके अलावा, जैसा कि निक कॉक्स टिप्पणियों में बताते हैं, कर्नेल घनत्व का अनुमान मोड की संख्या की छाप को प्रभावित कर सकता है (कभी-कभी मोड को स्मियर करना ... या कभी-कभी छोटे मोड का सुझाव देना जहां मूल वितरण में कोई भी मौजूद नहीं है)। कई सामान्य प्रदर्शनों की व्याख्या के साथ ध्यान रखना चाहिए।
बॉक्सप्लॉट के ऐसे संशोधन हैं जो बहुविधता (वास भूखंड, वायलिन भूखंड और बीन भूखंड, कई अन्य लोगों के बीच) को बेहतर ढंग से इंगित कर सकते हैं। कुछ स्थितियों में वे उपयोगी हो सकते हैं, लेकिन अगर मैं उन तरीकों को खोजने में दिलचस्पी रखता हूं जो मैं आमतौर पर एक अलग प्रकार के प्रदर्शन को देखूंगा।
बॉक्सप्लेट्स बेहतर होते हैं जब ब्याज स्थान और प्रसार की तुलना पर केंद्रित होता है (और अक्सर वितरण के आकार के विवरणों के बजाय को तिरछा करने के लिए )। यदि मल्टीमॉडलिटी दिखाना महत्वपूर्ण है, तो मैं सुझाव दूंगा कि ऐसे डिस्प्ले दिखाए जाएं जो दिखाने में बेहतर हों - डिस्प्ले की सटीक पसंद इस बात पर निर्भर करती है कि आप सबसे अच्छा क्या दिखाना चाहते हैं।
लेकिन हमेशा नहीं - x4
ऊपर के उदाहरण डेटा में चौथा डेटा सेट ( ) दिखाता है कि आप आसानी से पूरी तरह से सममित बॉक्सप्लॉट के साथ एक अलग तिरछा वितरण कर सकते हैं।
[१]: चूनप्रादुब, सी।, और मैकनील, डी। (२००५),
"क्या बॉक्सप्लेट में सुधार किया जा सकता है?"
सॉन्गक्लानकारिन जे विज्ञान। तकनीक। , 27 : 3, पीपी 649-657।
http://www.jourlib.org/paper/2081800
pdf
आर के साथ बहुविधता का पता लगाने के लिए कई विकल्प हैं। नीचे दिए गए चार्ट के लिए डेटा तीन मोड (-3,0,1) के साथ उत्पन्न किया गया था। बॉक्सप्लॉट दूसरों द्वारा स्पष्ट रूप से विकृत है (वायलिन प्लॉट ऐसा लगता है कि इसमें अलग-अलग डिफ़ॉल्ट कर्नेल घनत्व सेटिंग्स हैं), लेकिन कोई भी वास्तव में 0 और 1 मोड के बीच अंतर नहीं करता है। कंप्यूटर युग में अब बॉक्सप्लाट्स का उपयोग करने के कुछ कारण हैं। जानकारी क्यों फेंकी?
dat <- c(rnorm(500, -3, 1), rnorm(200, 0, 1), rnorm(300, 1, 1))
par(mfrow=c(2, 2))
boxplot(dat, horizontal=TRUE, main="Boxplot")
require(beanplot)
beanplot(dat, horizontal=TRUE, main="Beanplot")
require(viopoints)
viopoints(dat, horizontal=TRUE, main="Viopoints")
require(vioplot)
vioplot(dat, horizontal=TRUE)
title("Violin Plot")