मल्टीमॉडल वितरण के लिए बॉक्स-एंड-व्हिस्कर प्लॉट


13

क्या मैं मल्टीमॉडल वितरण के लिए बॉक्स-एंड-व्हिस्कर प्लॉट का उपयोग कर सकता हूं या केवल अनिमॉडल वितरण के लिए?


एक से अधिक मोड के साथ वितरण के लिए सामान्य शब्द ' मल्टीमॉडल ' होगा। यदि आपका यही मतलब है, तो कृपया सामान्य शब्द का उपयोग करने के लिए संपादित करें। यदि आपका मतलब कुछ और है, तो कृपया इस शब्द को परिभाषित करें।
Glen_b -Reinstate मोनिका

1
बॉक्स प्लॉट हमेशा जटिल वितरण आकृतियों के लिए सहायक नहीं होते हैं। बिमोडल ... मल्टीमॉडल (मुझे लगता है कि "पॉलीमॉडल" की तुलना में अधिक सामान्य शब्द है) आकार अक्सर छिपाए जाएंगे। बहुत कुछ इस बात पर निर्भर करता है कि असमानता से प्रस्थान कितना मजबूत है। अन्यथा कोई घंटी नहीं बजेगी और कोई त्रुटि संदेश सुनिश्चित नहीं होगा। लेकिन यहां तक ​​कि एक हिस्टोग्राम या कर्नेल घनत्व का अनुमान जटिल वितरण को रोक सकता है; कुछ का मानना ​​है कि एक सुविधा के रूप में, यह उन नमूनों को स्वीकार करने में आसान है जो एक नमूने में सिर्फ quirks हैं। मैं कहूंगा कि केवल एक ही तरह का प्लॉट जो जानकारी नहीं खोता है वह एक क्वांटाइल प्लॉट है।
निक कॉक्स

@Glen_b मैंने किया। मेरी पुस्तक में, वे बहुपद व्याकुलता की बात कर रहे हैं। क्या एक चोटी के लिए एकरूपता सही है?
user1091344

1
आप निश्चित रूप से एक बॉक्स-प्लॉट का उपयोग कर सकते हैं - जो आपको रोक देगा? समस्या यह है कि सामान्य बॉक्सप्लॉट मोड की संख्या का कोई संकेत नहीं देता है (हालांकि बॉक्सप्लाट के संशोधन हैं जो बहुपदता का संकेत दे सकते हैं)। बॉक्सप्लॉट बेहतर होते हैं जब ब्याज स्थान के अंतर-समूह की तुलना पर केंद्रित होता है और वितरण के आकार के बजाय (कई समूहों में) फैलता है जब प्रत्यक्ष ब्याज होता है। यदि मल्टीमॉडलिटी दिखाना महत्वपूर्ण है - खासकर अगर कुछ समूह हैं - तो मैं दृढ़ता से एक अलग प्रदर्शन, या शायद कई का उपयोग करने का सुझाव दूंगा। (जब मैं कर सकता हूं तो मैं अपनी टिप्पणी को एक उत्तर में विस्तारित करूंगा।)
Glen_b -Reinstate Monica

1
आपके सबूत हमें इस पुस्तक के बारे में अच्छी तरह से सोचने के लिए प्रेरित नहीं करते हैं।
निक कॉक्स

जवाबों:


20

समस्या यह है कि सामान्य बॉक्सप्लॉट * आमतौर पर मोड की संख्या का संकेत नहीं दे सकता है। जबकि कुछ (आमतौर पर दुर्लभ) परिस्थितियों में यह स्पष्ट संकेत प्राप्त करना संभव है कि मोड की सबसे छोटी संख्या 1 से अधिक हो, आमतौर पर किसी दिए गए बॉक्सप्लॉट में एक या किसी भी बड़ी संख्या के साथ संगत होती है।

* सामान्य प्रकार के बॉक्सप्लेट के कई संशोधनों का सुझाव दिया गया है जो घनत्व में बदलाव को इंगित करने के लिए अधिक करते हैं और कई मोड की पहचान करने के लिए कैम का उपयोग किया जाता है, लेकिन मुझे नहीं लगता कि वे इस प्रश्न का उद्देश्य हैं।

उदाहरण के लिए, जबकि इस साजिश करता है कम से कम दो मोड की उपस्थिति का संकेत (डेटा इतनी के रूप में ठीक दो के लिए उत्पन्न किया गया) -

यहाँ छवि विवरण दर्ज करें

इसके विपरीत, इसके वितरण में दो बहुत स्पष्ट मोड हैं, लेकिन आप बस बॉक्सप्लेट से बिल्कुल नहीं बता सकते हैं:

यहाँ छवि विवरण दर्ज करें

Boxplots जरूरी नहीं कि वितरण के बारे में बहुत सारी जानकारी देते हैं। मूंछ के बाहर किसी भी चिह्नित बिंदु की अनुपस्थिति में, उनके पास केवल पांच मान हैं, और एक पांच नंबर सारांश वितरण को बहुत कम नहीं करता है । हालांकि, ऊपर दिया गया पहला आंकड़ा एक ऐसे मामले को दर्शाता है जहां सीएफडी को अनिवार्य रूप से एक अनिमॉडल डिस्ट्रीब्यूशन (कम से कम 100 के सैंपल साइज पर ) से अलग करने के लिए "पिन डाउन" किया गया है - कोई भी अनिमॉडल सीएफडी, सीएफडी पर अड़चन के अनुरूप नहीं है उस स्थिति में, जिसे पहली तिमाही में अपेक्षाकृत तेज वृद्धि की आवश्यकता होती है, बीच की छमाही में वृद्धि की एक छोटी दर (औसतन) एक छोटी दर और फिर अंतिम तिमाही में एक और तेज वृद्धि में बदल जाती है।n=

दरअसल, यहां आंकड़ा 1 (जो मुझे लगता है कि एक कामकाजी कागज है जिसे बाद में [1] में प्रकाशित किया गया है) एक ही बॉक्स प्लॉट के साथ चार अलग-अलग डेटा सेट दिखाता है।

मेरे पास वह डेटा हाथ में नहीं है, लेकिन एक समान डेटा सेट बनाने के लिए यह एक तुच्छ मामला है - जैसा कि पांच-नंबर सारांश से संबंधित लिंक में इंगित किया गया है, हमें केवल आयताकार बक्से के भीतर झूठ बोलने के लिए हमारे वितरण को बाध्य करने की आवश्यकता है जो पांच नंबर सारांश हमें प्रतिबंधित करता है।

यहाँ आर कोड है जो कागज में उसी तरह का डेटा उत्पन्न करेगा:

x1 = qnorm(ppoints(1:100,a=-.072377))
x1 = x1/diff(range(x1))*18+10
b = fivenum(x1)  # all of the data has this five number summary
x2 = qnorm(ppoints(1:48));x2=x2/diff(range(x2))*.6
x2 = c(b[1],x2+b[2],.31+b[2],b[4]-.31,x2+b[4],b[5])
d = .1183675; x3 = ((0:34)-34/2)/34*(9-d)+(5.5-d/2)
x3 = c(x3,rep(9.5,15),rep(10.5,15),20-x3)
x4 = c(1,rep(b[2],24),(0:49)/49*(b[4]-b[2])+b[2],(0:24)/24*(b[5]-b[4])+b[4])

यहां पर उपरोक्त डेटा (पेपर को छोड़कर, मैं यहां सभी चार बॉक्सप्लॉट दिखाता हूं) के समान प्रदर्शन किया गया है:

यहाँ छवि विवरण दर्ज करें

हालांकि, खबरदार - हिस्टोग्राम की समस्याएँ भी हो सकती हैं ; वास्तव में, हम इसकी समस्याओं में से एक को यहाँ देखते हैं, क्योंकि तीसरे "पीक" हिस्टोग्राम में वितरण वास्तव में विशिष्ट रूप से बिमोडल है; हिस्टोग्राम बिन की चौड़ाई बस इसे दिखाने के लिए बहुत चौड़ी है। इसके अलावा, जैसा कि निक कॉक्स टिप्पणियों में बताते हैं, कर्नेल घनत्व का अनुमान मोड की संख्या की छाप को प्रभावित कर सकता है (कभी-कभी मोड को स्मियर करना ... या कभी-कभी छोटे मोड का सुझाव देना जहां मूल वितरण में कोई भी मौजूद नहीं है)। कई सामान्य प्रदर्शनों की व्याख्या के साथ ध्यान रखना चाहिए।

बॉक्सप्लॉट के ऐसे संशोधन हैं जो बहुविधता (वास भूखंड, वायलिन भूखंड और बीन भूखंड, कई अन्य लोगों के बीच) को बेहतर ढंग से इंगित कर सकते हैं। कुछ स्थितियों में वे उपयोगी हो सकते हैं, लेकिन अगर मैं उन तरीकों को खोजने में दिलचस्पी रखता हूं जो मैं आमतौर पर एक अलग प्रकार के प्रदर्शन को देखूंगा।

बॉक्सप्लेट्स बेहतर होते हैं जब ब्याज स्थान और प्रसार की तुलना पर केंद्रित होता है (और अक्सर वितरण के आकार के विवरणों के बजाय को तिरछा करने के लिए )। यदि मल्टीमॉडलिटी दिखाना महत्वपूर्ण है, तो मैं सुझाव दूंगा कि ऐसे डिस्प्ले दिखाए जाएं जो दिखाने में बेहतर हों - डिस्प्ले की सटीक पसंद इस बात पर निर्भर करती है कि आप सबसे अच्छा क्या दिखाना चाहते हैं।

लेकिन हमेशा नहीं - x4ऊपर के उदाहरण डेटा में चौथा डेटा सेट ( ) दिखाता है कि आप आसानी से पूरी तरह से सममित बॉक्सप्लॉट के साथ एक अलग तिरछा वितरण कर सकते हैं।

[१]: चूनप्रादुब, सी।, और मैकनील, डी। (२००५),
"क्या बॉक्सप्लेट में सुधार किया जा सकता है?"
सॉन्गक्लानकारिन जे विज्ञान। तकनीक। , 27 : 3, पीपी 649-657।
http://www.jourlib.org/paper/2081800
pdf


2
मोड पर दो व्यापक टिप्पणियां। 1. प्रतिरूपता के एक विशेष पैटर्न का एक अच्छा परीक्षण यह है कि क्या यह एक ही आकार के नमूनों में बार-बार पुनरावृत्ति करता है। मेरा अनुभव है कि उस अर्थ में मोड बेहद चंचल हो सकते हैं। 2. मोड पर विचार करते समय यह हमेशा पूछने के लायक है कि क्या एक मोड में एक महत्वपूर्ण व्याख्या है। लेकिन हर तर्क गलत हो सकता है; अगर मैं सही ढंग से याद करूं, तो ज्यादातर लोग यह अनुमान लगाएंगे कि पुरुषों और महिलाओं का मिश्रण ऊंचाइयों के वितरण के लिए जैव विविधता प्रदान करेगा, लेकिन यह पता लगाना मुश्किल है कि उच्च गुणवत्ता वाले बड़े नमूनों में भी।
निक कॉक्स

1
@ न्यूकॉक्स धन्यवाद; वास्तव में, मैंने अनुमान लगाया है कि ऊँचाई बिमोडल नहीं होगी; कल्पना कीजिए कि (वास्तविकता के लिए एक लगभग सन्निकटन के रूप में) हमने दो सामान्य वितरणों को समान मानक विचलन के साथ माना, जिनके साधनों में 1sd से भिन्न होता है, महिलाओं के रूप में कई पुरुषों के बारे में। फिर वास्तव में संयुक्त (दो मानदंडों का मिश्रण) वितरण अनिमॉडल है। वास्तविकता थोड़ी अधिक जटिल है, बेशक-जैसे वितरण जातीय समूहों के मिश्रण हैं, लिंग और जातीय समूहों के भीतर भी तिरछे हैं, अलग-अलग संस्करण हैं और साधन 1sd से अधिक भिन्न हैं, लेकिन परिणाम (एकरूपता) हमें आश्चर्यचकित नहीं करना चाहिए
Glen_b -Reinstate मोनिका

3
यह ध्यान देने योग्य है कि JW Tukey ने अपने खोजपूर्ण डेटा विश्लेषण (रीडिंग, एमए: एडिसन-वेस्ले, 1977) में रेले के डेटा का एक डॉट प्लॉट शामिल किया, जिसके कारण आर्गन की खोज हुई, एक द्विअर्थी पैटर्न के रूप में जिसके लिए बॉक्स प्लॉट बेकार हैं और एक अन्य प्रदर्शन, तुकी के मामले में एक डॉट प्लॉट, संरचना को देखने के लिए आवश्यक है। Tukey जैसा कि अच्छी तरह से बॉक्स प्लॉट नाम से जाना जाता है और इतनी अच्छी तरह से ज्ञात नहीं है कि इसका पुन: आविष्कारक था।
निक कॉक्स

7

आर के साथ बहुविधता का पता लगाने के लिए कई विकल्प हैं। नीचे दिए गए चार्ट के लिए डेटा तीन मोड (-3,0,1) के साथ उत्पन्न किया गया था। बॉक्सप्लॉट दूसरों द्वारा स्पष्ट रूप से विकृत है (वायलिन प्लॉट ऐसा लगता है कि इसमें अलग-अलग डिफ़ॉल्ट कर्नेल घनत्व सेटिंग्स हैं), लेकिन कोई भी वास्तव में 0 और 1 मोड के बीच अंतर नहीं करता है। कंप्यूटर युग में अब बॉक्सप्लाट्स का उपयोग करने के कुछ कारण हैं। जानकारी क्यों फेंकी?

यहाँ छवि विवरण दर्ज करें

dat <- c(rnorm(500, -3, 1), rnorm(200, 0, 1), rnorm(300, 1, 1))

par(mfrow=c(2, 2))
boxplot(dat, horizontal=TRUE, main="Boxplot")

require(beanplot)
beanplot(dat, horizontal=TRUE, main="Beanplot")

require(viopoints)
viopoints(dat, horizontal=TRUE, main="Viopoints")

require(vioplot)
vioplot(dat, horizontal=TRUE)
title("Violin Plot")
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.