नोट किए गए बॉक्स भूखंडों की व्याख्या कैसे करें


11

कुछ EDA करते समय मैंने एक कारक के दो स्तरों के बीच के अंतर को दर्शाने के लिए एक बॉक्स प्लॉट का उपयोग करने का निर्णय लिया।

जिस तरह से ggplot ने बॉक्स प्लॉट को प्रस्तुत किया वह संतोषजनक था, लेकिन थोड़ा सरल (नीचे पहला प्लॉट)। जबकि बॉक्स भूखंडों की विशेषताओं पर शोध करते हुए मैंने पायदान के साथ प्रयोग करना शुरू किया।

मैं समझता हूँ कि notches सीआई को माध्यिका के चारों ओर प्रदर्शित करता है, और अगर दो बक्सों के शिलालेख ओवरलैप नहीं होते हैं, तो 95% विश्वास स्तर पर 'मजबूत साक्ष्य' होते हैं - जो कि मीडियों में भिन्न होते हैं।

मेरे मामले में (दूसरा प्लॉट), notches सार्थक ओवरलैप नहीं है। लेकिन दाहिने हाथ की ओर बॉक्स के निचले हिस्से को वह अजीब रूप क्यों देता है?

वायलिन भूखंड में एक ही डेटा प्लॉट करना संबंधित वायलिन की संभावना घनत्व के बारे में कुछ भी असामान्य नहीं दर्शाता है।

अंजीर। 1 बॉक्सप्लॉट

अंजीर। 2 नोकदार बॉक्सप्लॉट


1
अपने ggplot कोड में, आपको फ़िल = फ़ैक्टर (am) का उपयोग करना चाहिए क्योंकि वर्तमान में एक संख्यात्मक चर के रूप में उपयोग किया जा रहा है।
15'15

यह एक शानदार जगह है @rnso
RDJ

क्या कोई मूल डेटा पोस्ट कर सकता है? मुझे लगता है कि वे एक मानक रेत बॉक्स से हैं ggplot2। मुझे व्यक्तिगत डेटा बिंदुओं को भी प्लॉट करने का विचार पसंद है, लेकिन यह अभी तक निराश है क्योंकि अंधेरे बॉक्स के भीतर अंक अदृश्य बना दिए गए हैं।
निक कॉक्स

जवाबों:


18

मेरे मामले में (दूसरा प्लॉट), notches सार्थक ओवरलैप नहीं है। लेकिन दाहिने हाथ की ओर बॉक्स के निचले हिस्से को वह अजीब रूप क्यों देता है? मैं उसे कैसे समझाऊं?

यह इंगित करता है कि 25 वाँ प्रतिशतक लगभग 21 है, 75 वाँ प्रतिशतक लगभग 30.5 है। और पायदान की निचली और ऊपरी सीमा लगभग 18 और 27 है।

एक सामान्य कारण यह है कि आपका वितरण तिरछा है या नमूना आकार कम है। पायदान की सीमा पर आधारित है:

median±1.57×IQRn

यदि माध्यिका और 25 वाँ प्रतिशतक के बीच की दूरी और मध्य और 75 वाँ प्रतिशतक के बीच की दूरी अत्यंत भिन्न है (जैसे कि दाईं ओर वाली) और / या नमूना का आकार कम है, तो पायदान व्यापक होगी। यदि यह पर्याप्त चौड़ा है कि पायदान की सीमा 25 वीं और 75 वीं प्रतिशत (उर्फ, बॉक्स) की तुलना में अधिक चरम है, तो नोकदार बॉक्स प्लॉट इसे "अंदर बाहर" आकार प्रदर्शित करेगा।


1
आपके विस्तृत विवरण के लिए बहुत बहुत धन्यवाद। मुझे पूछना चाहिए, क्यों पायदान की निचली और ऊपरी सीमा लगभग 17 और 24 है, 18 और 27 के बारे में नहीं (दाईं ओर बॉक्सप्ले)?
डेनिस

@ डेनिस, उस पकड़ने के लिए धन्यवाद। मैंने इसे संशोधित किया है।
पेंग्विन_कानाइट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.