एक बॉक्सप्लॉट के कुछ विकल्प क्या हैं?


20

मैं एक वेबसाइट बनाने पर काम कर रहा हूं, जो एक चयनित उपयोगकर्ता के लिए जनगणना के आंकड़ों को प्रदर्शित करता है और विभिन्न मापदंडों (एक पैरा प्रति पैरामीटर) के वितरण को रेखांकन दिखाना चाहेगा।

डेटा में आमतौर पर निम्नलिखित गुण होते हैं:

  1. नमूना आकार बड़ा हो (लगभग 10,000 डेटा पॉइंट्स)
  2. मूल्यों में सीमा बड़ी हो जाती है (उदाहरण के लिए, न्यूनतम जनसंख्या 100 से कम हो सकती है और अधिकतम 500,000 से अधिक हो सकती है)
  3. q1 आमतौर पर न्यूनतम (200 के करीब) होता है जबकि q2 और q3 10,000 के भीतर होगा
  4. यह एक सामान्य वितरण की तरह कुछ भी नहीं दिखता है

मैं एक सांख्यिकीविद् नहीं हूं और इसलिए मेरा वर्णन बिल्कुल स्पष्ट नहीं हो सकता है।

मैं इस वितरण को एक ग्राफ पर दिखाना चाहूंगा, जिसे नागरिकों (आम आदमी, यदि आप चाहें) द्वारा देखा जाएगा।

मुझे हिस्टोग्राम का उपयोग करना सबसे अच्छा लगा होगा, लेकिन यह बड़ी रेंज के मूल्यों के कारण संभव नहीं है, जिसके कारण डिब्बे बनाना वास्तव में आसान और सीधे आगे नहीं है।

आँकड़ों के बारे में जो कुछ मुझे पता है, उससे एक बॉक्स प्लॉट है जो अक्सर इस तरह के डेटा को दिखाने के लिए उपयोग किया जाता है, लेकिन मुझे लगता है कि एक छंटनी के लिए, बॉक्स प्लॉट को डिक्रिप्ट करना आसान नहीं है।

आसान तरीके से इस डेटा को दिखाने के लिए मेरे पास क्या विकल्प हैं?


आप वास्तव में क्या प्रदर्शित कर रहे हैं? यह मेरे लिए स्पष्ट नहीं है कि आपका डेटा बिंदु किस तरह का डेटा दर्शाता है।
mpiktas

1
कैसे एक कर्नेल घनत्व साजिश के बारे में? statmethods.net/graphs/density.html
रोमन लुसट्रिक

@mpiktas: मेरा डेटा गांवों के लिए जनगणना डेटा है। मेरी वेबसाइट उपयोगकर्ता को मानचित्र पर एक क्षेत्र का चयन करने की अनुमति देगी, और फिर उस क्षेत्र के सभी गांवों को ढूंढेगी। किसी गाँव की जनगणना के आंकड़ों में विभिन्न मूल्य होते हैं जैसे: पुरुष जनसंख्या, महिला जनसंख्या, उस गाँव की औसत घरेलू आय आदि। मुझे उपयोगकर्ता चयनित क्षेत्र में पड़ने वाले सभी गांवों के लिए एक विशेष मूल्य (जैसे: कुल जनसंख्या) के लिए डेटा वितरण दिखाने की उम्मीद है।
देवदत्त तेंग्शे

जवाबों:


13

एक बॉक्सप्लाट वह जटिल नहीं है। आखिरकार, आपको बस तीन चतुर्थांशों की गणना करने की आवश्यकता है , और न्यूनतम और अधिकतम जो सीमा को परिभाषित करते हैं; जब हम मूंछ खींचना चाहते हैं तो एक सूक्ष्मता उत्पन्न होती है और विभिन्न तरीकों का प्रस्ताव किया गया है। उदाहरण के लिए, टकी बॉक्सप्लेट के मूल्यों में पहली या तीसरी चतुर्थक से अंतर-चतुर्थक के बाहर 1.5 गुना मानों को आउटलेर के रूप में माना जाएगा और सरल बिंदुओं के रूप में प्रदर्शित किया जाएगा। सांख्यिकीय जानकारी प्रस्तुत करने के तरीके भी देखें : क्रिस्टिन पॉटर द्वारा एक अच्छे अवलोकन के लिए बॉक्स प्लॉटआर सॉफ्टवेयर एक अलग नियम लागू करता है, लेकिन स्रोत कोड उपलब्ध है अगर आप इसे अध्ययन करने के लिए (देखें चाहते हैं boxplot()औरboxplot.stats()फ़ंक्शन)। हालांकि, यह बहुत उपयोगी नहीं है जब ब्याज बहुत तिरछी वितरण से आउटलेर्स की पहचान करने में है (लेकिन देखें, ह्यूबर्ट और वांडरविरेन, सीएसडीए 2008 52 (12) द्वारा तिरछे वितरण के लिए एक समायोजित बॉक्सप्लॉट )।

जहाँ तक ऑनलाइन विज़ुअलाइज़ेशन का सवाल है, मैं आपको प्रोटॉविस पर एक नज़र डालने का सुझाव दूंगा जो कि इंटरएक्टिव डिस्प्ले के लिए एक प्लगइन-फ्री जेएस टूलबॉक्स है। उदाहरण पेज क्या बहुत कुछ पंक्तियों में, इसके साथ प्राप्त किया जा सकता की बहुत चित्र है।


3
मैं जैविक अनुसंधान में काम करता हूं। मैं कुछ सहयोगियों को जानता हूं (मेरा मतलब है, पीएचडी वाले लोग) जो वास्तव में बॉक्सप्लॉट्स को समझ नहीं सकते हैं। मैं उनका उपयोग सामान्य दर्शकों को लक्षित करने के लिए नहीं करूंगा।
निको

1
@ निको यह एक उचित बिंदु है। लेकिन, यह कुशल चित्रमय सारांश का उपयोग नहीं करने का एक कारण नहीं है। एक बॉक्सप्लॉट वास्तव में क्या करता है इसका योजनाबद्ध चित्रण पाठक की मदद कर सकता है।
CHL

1
यह वास्तव में इस बात पर निर्भर करता है कि लक्षित दर्शक क्या है और साइट का उद्देश्य क्या है। बॉक्सप्लेट्स की व्याख्या करने से निश्चित रूप से मदद मिलेगी, लेकिन फिर भी, कुछ लोग वितरण की अवधारणा के साथ बहुत संघर्ष करते हैं।
nico

@ निको हां, मैं सहमत हूं। हालांकि बॉक्सप्लॉट का विज़ुअलाइज़ेशन चिड़ियाघर के माध्यम से ए टूर में उल्लेख नहीं किया गया है - लेकिन ये बड़े और जटिल डेटा सेटों के लिए हैं, मुझे बस यह पसंद है और मुझे यह देखने के लिए खेद है कि प्रायोगिक विज्ञान में इसका अधिक उपयोग नहीं किया जाता है। कच्चे डेटा को सुपरिमपोज़ करना पाठक को वितरण की कल्पना करने में मदद करने का एक तरीका है।
chl

1
मुझे पता है! मैं हमेशा अपने सहयोगियों को बॉक्सप्लॉट में "परिवर्तित" करने की कोशिश करता हूं, कम से कम जब यह कागज लिखने, प्रस्तुतियों आदि बनाने की बात आती है, लेकिन कभी-कभी हालांकि!
निको


7

मेरा सुझाव है कि आप हिस्टोग्राम के साथ दृढ़ रहें। वे बहुत अधिक व्यापक रूप से विकल्पों की तुलना में समझ रहे हैं। मानों की बड़ी श्रेणी के साथ सामना करने के लिए एक लॉग स्केल का उपयोग करें। यहाँ एक उदाहरण है मूल्य अक्ष पर लॉग स्केल के साथ हिस्टोग्राम
जिसे मैंने स्टाटा में कुछ मिनटों में पकाया है: मैं मानता हूँ कि एक्स-एक्सिस संख्यात्मक लेबल पूरी तरह से सीधे या स्वचालित नहीं थे, लेकिन जब आप एक वेबसाइट का निर्माण कर रहे हैं तो मुझे यकीन है कि आपके प्रोग्रामिंग कौशल ऊपर हैं चुनौती!


अच्छी बात। हिस्टोग्राम (या बैंडविड्थ के साथ प्रयोग के साथ घनत्व प्लॉट) यहां एक महान समाधान हैं।
सनकूल्सु डिस

आप पूरी तरह से सही हैं, कि हिस्टोग्राम एक वितरण को दिखाने का सबसे समझदार तरीका है। मैं लॉग स्केल में दोनों अक्षों के साथ हिस्टोग्राम बनाने की कोशिश करूंगा।
देवदत्त तेंग्शे

2
मैं केवल x- अक्ष के लिए एक लॉग स्केल का उपयोग करने का सुझाव दे रहा हूं। मुझे नहीं लगता कि आवृत्ति अक्ष के लिए एक लॉग स्केल एक अच्छा विचार होगा, क्योंकि तब हिस्टोग्राम के प्रत्येक बार का छायांकित क्षेत्र टिप्पणियों की संख्या के लिए आनुपातिक नहीं होगा।
onestop

5

यहां है बॉक्स-प्लॉट के विकल्प के रूप में 2 डी में कई हिस्टोग्राम के साइड-बाय-साइड प्लॉटिंग के लिए मैटलैब फ़ंक्शन है । शीर्ष पर चित्र देखें। और यहाँ एक और है

घनत्व पट्टी बॉक्स-प्लॉट का एक और विकल्प है। यह एक छायांकित मोनोक्रोम स्ट्रिप है जिसका एक बिंदु पर अंधेरा उस बिंदु पर मात्रा की संभावना घनत्व के आनुपातिक है। यह घनत्व पट्टी का एक आर कार्यान्वयन है


1
(+1) उसके बारे में भूल गए। यह काम हो सकता है।
chl

1
बस छायांकन के साथ अनिश्चितता प्रदर्शित करने का एक ungated पीडीएफ संस्करण मिला ।
CHL

@chl: वह लिंक काम नहीं करता है
kjetil b halvorsen

4

x%x=0,10,20,...,100


3
मेरे एक दोस्त का हवाला देते हुए: यदि आप एक पेपर में कुछ "छिपाना" चाहते हैं, तो इसे पाठ में रखें, फिर एक आकृति में। यदि आप यह सुनिश्चित करना चाहते हैं कि कोई भी इसे एक तालिका में नहीं पढ़ता है! ;) बेशक मज़ाक कर रहे हैं, लेकिन उपयोगकर्ताओं को क्लिक करने के लिए इंटरेक्टिव मानचित्रों के साथ एक वेबसाइट होने आदि के लिए सभी को एक तालिका प्राप्त करना है ... अच्छी तरह से यह निराशाजनक होगा!
निको

@ निको, हाँ, लेकिन कभी-कभी तालिकाएं रेखांकन की तुलना में बहुत अधिक जानकारीपूर्ण होती हैं। मैं उदाहरण के लिए एक खराब ग्राफ के बजाय तालिका पसंद करता हूं। इस मामले में तालिका को अभी भी ग्राफ द्वारा दर्शाया जा सकता है, और मैंने क्वांटाइल्स का सुझाव दिया क्योंकि उन्हें आउटलेयर की समस्या नहीं है।
mpiktas

यही मैं वर्तमान में कर रहा हूं (एक ग्राफ पर डिकॉयल्स दिखा रहा है), लेकिन हमारे कुछ लक्षित दर्शकों को दिखाने के बाद, हमें प्रतिक्रिया मिली, कि ग्राफ़ को समझना आसान नहीं था।
देवदत्त तेंग्शे

2

यदि आप सामान्य आबादी (यानी एक गैर-सांख्यिकीय-प्रेमी दर्शक) को लक्षित कर रहे हैं, तो आपको सांख्यिकीय सटीकता के बजाय आंख-कैंडी पर ध्यान केंद्रित करना चाहिए।

बॉक्सप्लॉट के बारे में भूल जाओ, अकेले वायलिन भूखंडों को दें (मैं व्यक्तिगत रूप से उन्हें पढ़ने के लिए बहुत मुश्किल लगता हूं)! यदि आप औसत सड़क के आदमी से पूछते हैं कि एक मात्रात्मक क्या है, तो आप ज्यादातर कुछ विस्तृत आंखों को मौन करेंगे ...

आपको बारप्लॉट, बबल चार्ट, शायद कुछ पाई चार्ट (ब्र्र्र) का उपयोग करना चाहिए। त्रुटि सलाखों के बारे में भूल जाओ (हालांकि मैं एसडी में पाठ में जहां कहीं भी लागू होता है)।

रंगों, आकृतियों, मोटी रेखाओं, 3 डी का उपयोग करें। आपको प्रत्येक चार्ट को अद्वितीय और तुरंत समझने में आसान बनाना चाहिए, यहां तक ​​कि सभी किंवदंतियों / कुल्हाड़ियों आदि को पढ़ने के बिना भी, उन्हें चित्रित करके नक्शे का एक स्मार्ट उपयोग करें।

सूचना सुंदर है विचारों को प्राप्त करने के लिए एक बहुत अच्छा संसाधन है। उदाहरण के लिए इस चार्ट को देखें: कैफीन और कैलोरी : कोई भी इसे समझ सकता है, और यह आंख को भाता है।

और, निश्चित रूप से, एडवर्ड टफ्टे के काम पर एक नज़र है।


नोट मैं यह सुझाव नहीं दे रहा था कि वह अपने अनुप्रयोगों के लिए वायलिन के भूखंडों का उपयोग करें, लेकिन लॉगरिदमिक रूप से रिक्त डिब्बे के साथ एक हिस्टोग्राम। वायलिन भूखंड शीर्षक में प्रश्न का उत्तर था (जो कि पोस्ट में ही प्रश्न के लिए अलग था)।
डिक्रान मार्सुपियल

3
तुम शायद कई आँखें , dataviz , datavisualization.ch , और Ideas2evidence पसंद करेंगे , कुछ नाम।
CHL

2

मैं खुद को वायलिन के प्लॉट पसंद करता हूं, क्योंकि इससे वितरण के आकार का अंदाजा होता है। हालाँकि यदि मानों की बड़ी रेंज समस्या है, तो हो सकता है कि कच्चे मूल्यों के बजाय डेटा के लॉग को प्लॉट करना सबसे अच्छा होगा, फिर इसके बाद हिस्टोग्राम्स के लिए बॉक्स के आकार का चयन करना होगा जैसे कि डिस्प्ले आम आदमी के लिए है, डॉन 'लॉग्स का उल्लेख न करें और अक्ष 10, 100, 1000, 10000, 100000, 1000000 आदि को चिह्नित करें।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.