एक बॉक्स प्लॉट क्या जानकारी प्रदान करता है जो एक हिस्टोग्राम नहीं करता है?


13

हिस्टोग्राम एक चर के वितरण का एक अच्छा अर्थ देते हैं। हालांकि, बॉक्स प्लॉट एक ही काम करने का प्रयास करते हैं, लेकिन इस चर के वितरण की तस्वीर को उतना अच्छा नहीं देते।

मुझे समझ नहीं आता कि लोग बॉक्स प्लॉट का उपयोग क्यों करते हैं। हिस्टोग्राम हर तरह से बेहतर है। वहाँ एक कारण है कि मैं उन दोनों का उपयोग करेगा?

केवल एक चीज जो मुझे लगता है कि बॉक्स प्लॉट प्रदान करती है: आउटलेयर! यह हमें बताता है कि कौन से अवलोकन आउटलेयर हो सकते हैं।


1
क्या हिस्टोग्राम पूरे वितरण के प्रतिनिधित्व की तुलना में हर तरह से खराब है?
एंथनी मार्टिन

2
निर्भर करता है कि आप क्या चाहते हैं, एक बॉक्स प्लॉट के साथ आपके पास कुछ सटीक मान हो सकते हैं (जैसे माध्यिका, P75), जो आपके पास हिस्टोग्राम के साथ नहीं है। यह कम जानकारी प्रदर्शित करता है, लेकिन अधिक सिंथेटिक है। मेरा कहना है कि पूरे वितरण की तुलना में एक हिस्टोग्राम भी एक सरलीकरण और जानकारी की बर्बादी है। लेकिन इसका उपयोग करना आसान हो सकता है
एंथनी मार्टिन

2
Histograms की उपयोगिता के बारे में एक विपरीत दृष्टिकोण cogently व्यक्त किया गया है, और अच्छी तरह से चित्रित किया गया है, जो आँकड़े.स्टैकएक्सचेंज . com / a / 51753 (जो "हिस्टोग्राम" के लिए हमारी साइट की खोज करके पाया जा सकता है) में अत्यधिक उत्कीर्ण पोस्ट में है ।
whuber

3
दिलचस्प विचार - लेकिन बिन आकार बढ़ने से कटपॉइंट की पसंद पर अपनी दुर्भाग्यपूर्ण निर्भरता को बनाए रखते हुए हिस्टोग्राम को एक बॉक्सप्लॉट जैसी आकृति में कमी आएगी। IMHO, मल्टीप्लेयर डेटा के खोजपूर्ण विश्लेषण के लिए N- अक्षर सारांश के Tukey के उपयोग का अध्ययन करके और यह याद करते हुए कि वह उस समय पेंसिल और पेपर के साथ गणना कर रहा था, बॉक्सप्लेट्स की वास्तविक खूबियों को सबसे अच्छी तरह से सराहा जा सकता है। एक "भटकते हुए योजनाबद्ध ट्रेस" जैसी विज़ुअलाइज़ेशन के लिए, सशर्त प्रतिक्रियाओं के अन्य अविभाज्य सारांश, जैसे हिस्टोग्राम या वायलिन भूखंड, बस काम नहीं करेंगे।
whuber

1
हिस्टोग्राम की दो विफलताएं (इमो) तब होती हैं जब कुछ नमूने होते हैं या जब बक्से गलत आकार होते हैं। एक अच्छे बॉक्सप्लॉट की कमजोरी (और जब मैं कहता हूं कि मैं JMP परिवर्तनशीलता सोच रहा हूं) मल्टी-मॉड्युलैरिटी, और फाइन डिटेल हैं। एक जगह जहां बॉक्सप्लॉट चमकता है, जब कुछ नमूने होते हैं। मुझे यह भी पसंद है जब विभिन्न स्तरों पर कई परस्पर क्रियाशील चर होते हैं - इस प्रकार जेएमपी परिवर्तनशीलता की साजिश।
EngrStudent

जवाबों:


16

यह तथ्य कि बॉक्स प्लॉट किसी वितरण का अधिक सारांश प्रदान करते हैं, कुछ मामलों में लाभ के रूप में भी देखा जा सकता है। कभी-कभी जब हम वितरण की तुलना कर रहे होते हैं, तो हम समग्र आकार की परवाह नहीं करते हैं, बल्कि जहां वितरण एक दूसरे के संबंध में होता है। क्वांटाइलों को एक-दूसरे से जोड़कर प्लॉटिंग करना एक उपयोगी तरीका हो सकता है, जो हमें अन्य विवरणों के साथ विचलित किए बिना ऐसा नहीं कर सकता है।


1
यह सबसे अच्छा जवाब है। हिस्टोग्राम की तुलना में वितरण की तुलना के लिए बॉक्सप्लॉट बेहतर हैं!
kjetil b halvorsen

14

एकतरफा मामले में, बॉक्स-प्लॉट कुछ जानकारी प्रदान करते हैं जो हिस्टोग्राम नहीं करता है (कम से कम, स्पष्ट रूप से नहीं)। यही है, यह आम तौर पर मंझला, 25 वां और 75 वां प्रतिशतक प्रदान करता है, न्यूनतम / अधिकतम जो स्पष्ट रूप से नहीं है और स्पष्ट रूप से उन बिंदुओं को अलग करता है जिन्हें आउटलेर माना जाता है। यह सभी हिस्टोग्राम से "नेत्रगोलक" हो सकता है (और आउटलेयर के मामले में नेत्रगोलक होना बेहतर हो सकता है)।

हालांकि, बहुत बड़ा फायदा कई अलग-अलग समूहों में वितरण की तुलना एक साथ करने में है। 10+ समूहों के साथ, यह अगल-बगल के हिस्टोग्राम के साथ एक थका देने वाला कार्य है, लेकिन बॉक्स प्लॉट के साथ बहुत आसान है।

जैसा कि आपने उल्लेख किया है, वायलिन भूखंड (या बीन भूखंड) कुछ अधिक जानकारीपूर्ण विकल्प हैं। हालांकि, उन्हें बॉक्स भूखंडों की तुलना में थोड़ा अधिक सांख्यिकीय ज्ञान की आवश्यकता होती है (अर्थात यदि गैर-सांख्यिकीय दर्शकों के लिए पेश किया जाता है, तो यह थोड़ा अधिक डराने वाला हो सकता है) और बॉक्स-प्लॉट कर्नेल घनत्व अनुमानकों की तुलना में लगभग लंबे समय तक रहे हैं, इसलिए उनकी अधिक लोकप्रियता है।


3
+1। सुधार हालांकि, बॉक्स-प्लॉट मध्यस्थों को प्रदान करते हैं, साधन नहीं।
ग्रीनपार्क

3
हर कोई सही हो सकता है। बॉक्स प्लॉट आमतौर पर प्लॉट किए गए शो मेडियंस (मैंने इसे अस्वीकार कर दिया है, लेकिन एक उदाहरण देखकर याद नहीं है)। लेकिन कुछ कार्यान्वयन आपको साधनों को दिखाने की अनुमति देते हैं। यह अक्सर एक अच्छा विचार है।
निक कॉक्स

यह बात बताने के लिए धन्यवाद। मैं (गलत तरीके से) यह सोचकर रखता हूं कि आमतौर पर इसका मतलब है, जो चरम मामलों में कुछ बहुत ही अजीब भूखंडों को जन्म दे सकता है।
क्लिफ एबी

1
अच्छा होगा यदि बॉक्स-प्लॉट बनाम हिस्टोग्राम के साथ साइड-बाय-साइड तुलना के मूल्य को दिखाने के लिए इसके साथ जाने के लिए छवियां थीं
रुडोल्फ ओला

7
  1. अगर मैं आपको हिस्टोग्राम दिखाता हूं और आपसे पूछता हूं कि माध्यिका कहां है, तो आपको यह पता लगाने में काफी समय लग सकता है ... और फिर आपको केवल इसका एक अनुमान मिलेगा। यदि मैं एक बॉक्सप्लॉट के साथ ऐसा ही करता हूं तो आपके पास तुरंत है; यदि आप में रुचि रखते हैं, तो बॉक्सप्लॉट स्पष्ट रूप से जीतते हैं।

  2. मैं इस बात से सहमत हूं कि बॉक्सप्लॉट एक नमूने के वितरण के विवरण के रूप में प्रभावी नहीं हैं, क्योंकि वे इसे कुछ बिंदुओं तक कम करते हैं और यह आपको बहुत कुछ नहीं बताता है।

    हालांकि, यदि आप कई दर्जनों वितरणों की तुलना कर रहे हैं, तो प्रत्येक के सभी विवरणों की तुलना में अधिक जानकारी हो सकती है, आसानी से तुलना की जा सकती है - आप तुलना करने के लिए छोटी संख्या में जानकारी को कम करना चाह सकते हैं।

  3. यदि अधिक जानकारी बेहतर है, तो हिस्टोग्राम की तुलना में कई बेहतर विकल्प हैं; एक स्टेम और लीफ प्लॉट, उदाहरण के लिए, या एक ईकोडीएफ / क्वांटाइल प्लॉट।

    या आप हिस्टोग्राम में जानकारी जोड़ सकते हैं:

सीमांत बॉक्सप्लॉट के साथ हिस्टोग्राम हिटरोग्राम रगप्लॉट जिटर के साथ स्ट्रिपचर के साथ हिस्टोग्राम

( इस उत्तर से भूखंड )

उनमें से पहला - मार्जिन पर एक संकीर्ण बॉक्सप्लेट जोड़ना - आपको किसी भी प्रदर्शन से प्राप्त होने के लिए कोई लाभ देता है।


1

बार प्लॉट केवल टिप्पणियों की आवृत्ति की सीमा प्रदान करते हैं जबकि बॉक्स प्लॉट यह बताने में बेहतर होते हैं कि वितरण झूठ के कई पैरामीटर, उदाहरण माध्य और भिन्नताएं जो बार प्लॉट नहीं कर सकते हैं। बॉक्स प्लॉट इस प्रकार एक प्रभावी तुलनात्मक उपकरण के रूप में उपयोग किया जाता है यदि किसी के पास कई वितरण हैं।


किसी माध्यिका को प्रदर्शित करने के लिए एक बॉक्सप्लॉट के लिए दुर्लभ है - लगभग हमेशा वे मध्यस्थों का उपयोग करते हैं - और वे कभी भी सीधे रूप में भिन्नताओं का प्रतिनिधित्व नहीं करते हैं। ध्यान दें, भी, कि इन मात्राओं को आमतौर पर "वितरण का पैरामीटर" नहीं माना जाता है: वे डेटा के एक बैच के लिए वर्णनात्मक आँकड़े हैं ।
whuber

वास्तव में, वे बहुत अधिक गणनाओं के बिना वितरण का वर्णन करने के लिए एक अच्छा उपकरण हैं। और वे मध्यस्थों को अधिक प्रदर्शित करते हैं, और चूंकि बहुत सारे मामले दोनों ही संयोग से होते हैं, बॉक्स प्लॉट एक अच्छा साधन है, जो औसत को भी अनुमानित करते हैं।
शिव_90

आपकी टिप्पणी अंतर्निहित वितरण के साथ डेटा को भ्रमित करना जारी रखती है । किसी भी बैच के डेटा में माध्यिका के बराबर होने के लिए यह बहुत दुर्लभ है। इसके अलावा, बॉक्सप्लॉट के बेहतर और सबसे सामान्य उपयोगों में से एक विषमता की पहचान करना है, जो आमतौर पर माध्य और माध्य के बीच एक महत्वपूर्ण अंतर का अर्थ है। बॉक्सप्लॉट की मूल अवधारणा के पीछे मूल सिद्धांतों में से एक यह है कि यह एक मजबूत खोजपूर्ण उपकरण है - जिसका तात्पर्य है कि यह माध्य या विचरण जैसे संवेदनशील आँकड़ों पर आधारित न हो।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.