बहुत बड़े पैमाने पर युग्मित डेटापॉइंटों का रेखांकन करने का एक अच्छा तरीका क्या है?


9

मेरे क्षेत्र में युग्मित डेटा को प्लॉट करने का सामान्य तरीका पतली ढलान वाली रेखा सेगमेंट की एक श्रृंखला के रूप में है, यह दो समूहों के लिए माध्यिका और CI के मध्य के साथ ओवरले करता है:

यहाँ छवि विवरण दर्ज करें

हालाँकि, इस तरह के कथानक को पढ़ना बहुत कठिन हो जाता है क्योंकि डेटापॉइंट की संख्या बहुत बड़ी हो जाती है (मेरे मामले में मेरे पास 10000 जोड़े के आदेश पर है):

यहाँ छवि विवरण दर्ज करें

अल्फा को कम करने से थोड़ी मदद मिलती है, लेकिन यह अभी भी महान नहीं है। एक समाधान की खोज करते हुए मैं इस पत्र के पार आया , और 'समानांतर लाइन प्लॉट' को लागू करने का प्रयास करने का निर्णय लिया। फिर, यह छोटे अंकों के लिए बहुत अच्छी तरह से काम करता है:

यहाँ छवि विवरण दर्ज करें

लेकिन इस तरह के कथानक को बनाने के लिए यह और भी कठिन है जब एन बहुत बड़ी है:

यहाँ छवि विवरण दर्ज करें

मुझे लगता है कि मैं अलग से दो समूहों के लिए वितरण दिखा सकता हूँ, उदाहरण के लिए बॉक्सप्लॉट्स या वायलिन के साथ, और दो मध्यस्थों / CI को दिखाने वाले शीर्ष पर एररबार के साथ एक लाइन प्लॉट कर सकता हूं, लेकिन मुझे वास्तव में यह विचार पसंद नहीं है, क्योंकि यह व्यक्त नहीं करेगा। डेटा की युग्मित प्रकृति।

मैं 2 डी स्कैटर प्लॉट के विचार के बारे में अधिक उत्सुक नहीं हूं: मैं एक अधिक कॉम्पैक्ट प्रतिनिधित्व पसंद करूंगा, और आदर्श रूप से एक जिसमें दो समूहों के लिए मान एक ही अक्ष के साथ प्लॉट किए जाते हैं। पूर्णता की खातिर, यहाँ डेटा एक 2D बिखराव जैसा दिखता है:

यहाँ छवि विवरण दर्ज करें

क्या किसी को बहुत बड़े नमूना आकार के साथ युग्मित डेटा का प्रतिनिधित्व करने का एक बेहतर तरीका पता है? क्या आप मुझे कुछ उदाहरणों से जोड़ सकते हैं?

संपादित करें

क्षमा करें, मैंने स्पष्ट रूप से यह समझाने के लिए एक अच्छा काम नहीं किया है कि मैं क्या देख रहा हूँ। हां, 2 डी स्कैटर प्लॉट काम करता है, और ऐसे कई तरीके हैं जिनसे अंकों के घनत्व को बेहतर बनाने के लिए इसमें सुधार किया जा सकता है - मैं कर्नेल घनत्व अनुमान के अनुसार डॉट्स को कलर-कोड कर सकता हूं, मैं 2 डी हिस्टोग्राम कर सकता हूं , मैं डॉट्स इत्यादि के शीर्ष पर कंट्रोल्स को प्लॉट कर सकता था, आदि ...

हालाँकि, मुझे लगता है कि यह संदेश के लिए ओवरकिल है जिसे मैं व्यक्त करने की कोशिश कर रहा हूं। मैं वास्तव में प्रति अंक के 2 डी घनत्व को दिखाने के बारे में परवाह नहीं करता हूं - मुझे बस इतना करना है कि यह दिखाने के लिए कि 'बार' के लिए मान आमतौर पर 'डॉट्स' के लिए उन लोगों की तुलना में बड़े होते हैं, जितना संभव हो उतना सरल और स्पष्ट तरीका है। , और डेटा की आवश्यक बनती प्रकृति को खोए बिना। आदर्श रूप से मैं ऑर्थोगोनल कुल्हाड़ियों के बजाय एक ही साथ दो समूहों के लिए युग्मित मूल्यों की साजिश करना चाहता हूं, क्योंकि इससे उनकी तुलना करना आसान हो जाता है।

शायद स्कैटर प्लॉट से बेहतर कोई विकल्प नहीं है, लेकिन मैं जानना चाहूंगा कि क्या कोई विकल्प है जो काम कर सकता है।


1
क्या आपने barक्षैतिज और dotऊर्ध्वाधर अक्ष पर स्कैल्पलॉट के रूप में संबंधित मानों को प्लॉट करने की कोशिश की है ?
हॉफमैन

@TillHoffmann हां, मैंने अपने प्रश्न के अंत में उल्लेख किया है। यह संभवतः इस समय मेरे पास सबसे अच्छा विकल्प है, लेकिन मैं एक अधिक कॉम्पैक्ट प्रतिनिधित्व पसंद करूंगा, और आदर्श रूप से एक ही अक्ष के साथ दोनों समूहों के मूल्यों का प्रतिनिधित्व करता है (शायद मैं अनुचित रूप से मांग कर रहा हूं ...)। मैं अपने प्रश्न में स्कैप्लेट को जोड़ूंगा।
अली_म

क्षमा करें, मुझे वह याद आया। आप इस समय अपना सिंथेटिक डेटा कैसे पैदा कर रहे हैं?
हॉफमैन

2
क्या आप समझा सकते हैं कि "कॉम्पैक्ट" प्रतिनिधित्व से आपका क्या मतलब है? स्कैप्लेटोट एक छोटे से क्षेत्र में रिश्तों के साथ-साथ व्यक्तिगत रूप से असामान्य डेटा दिखाने के मामले में अन्य सभी से स्पष्ट रूप से बेहतर है; यह केवल बेहतर बढ़ता है क्योंकि डेटासेट का आकार बढ़ता है। (10,000 एक स्कैल्पप्लॉट के लिए बड़ा नहीं है।) आप इतने सारे अलग-अलग ग्राफिक्स का उल्लेख करते हैं कि वास्तव में आपको जो चाहिए उसकी कटौती करना असंभव है। कृपया हमें अपने विज़ुअलाइज़ेशन का उद्देश्य बताएं : वास्तव में आप किस तरह की जानकारी दूसरों से सीखने या उन्हें व्यक्त करने की उम्मीद करते हैं? कितना सही और जल्दी से आप इसे और समझे जाने का इरादा रखते हैं?
whuber

1
@whuber अस्पष्ट होने के लिए क्षमा करें। मैं जिस चीज की उम्मीद कर रहा था, वह डेटा का प्रतिनिधित्व करने का एक तरीका था कि दोनों समूहों के लिए मूल्यों को एक ही साथ चित्रित किया जाता है, बजाय ऑर्थोगोनल कुल्हाड़ियों के रूप में (जैसा कि वे 'ढालू लाइन' और 'समानांतर रेखा' भूखंडों में हैं)। यह संदेश बहुत ही सरल है - कि 'बार' के लिए मान आमतौर पर 'डॉट्स' के लिए अधिक होते हैं। इसके अलावा, मैं वितरण के घनत्व का प्रतिनिधित्व करने के बारे में बहुत परवाह नहीं करता हूं, हालांकि मैं यह बताना चाहता हूं कि नमूने में बड़ी संख्या में जोड़े हैं।
अली_म

जवाबों:


7

यह देखते हुए कि मैं आपके उद्देश्य को कैसे समझ सकता हूं, मैं सिर्फ युग्मित अंतर ( bars - dots) की गणना करूंगा , फिर इन अंतरों को एक हिस्टोग्राम या कर्नेल घनत्व अनुमान प्लॉट में प्लॉट करें। आप (1) शून्य अंतर (2) प्रतिशत के किसी भी विकल्प के अनुरूप एक ऊर्ध्वाधर रेखा के किसी भी संयोजन को जोड़ सकते हैं।

यह इस बात पर प्रकाश डालता है कि डेटा के किस हिस्से में barsअधिकता है dots, और आम तौर पर देखे गए अंतर क्या हैं।

(मैं मान लिया है कि आप की वास्तविक, कच्चे मूल्यों को प्रदर्शित करने में कोई दिलचस्पी नहीं कर रहे हैं barsऔर dotsएक ही भूखंड में।)

यह भी बता सकता है कि ये अंतर महत्वपूर्ण हैं या नहीं, यह बताने के लिए आत्मविश्वास या उत्तरोत्तर विश्वसनीय अंतराल की साजिश रच सकते हैं। (एच / टी @MMititology!)


इस उत्तर के साथ जोड़ना: आप युग्मित अंतरों के लिए आत्मविश्वास अंतराल की साजिश भी कर सकते हैं जो नेत्रहीन संकेत देगा कि अंतर महत्वपूर्ण हैं या नहीं।
MrMititology

इतने सारे जोड़े के साथ, यह देखना दिलचस्प हो सकता है कि क्या अंतर ths "प्रारंभिक बिंदु" पर निर्भर करता है, इसलिए आप एक मॉडल को फिट कर सकते हैं जैसे yबी=μ+ओफ़्सेट(y)+Δ(y-y¯या शायद एक द्विघात शब्द भी हो सकता है! रेखांकन के रूप में, जैसा कि आपने दिखाया है, पैसर को प्लॉट करें, लेकिन ढलान के आधार पर कम अल्फा और रंग के साथ।
kjetil b halvorsen

2

इतने सारे जोड़े के साथ आपको संरचना की अधिक गहराई से जांच करने की संभावना है, जैसे कि अंतर yबी-y "शुरुआती बिंदु" पर निर्भर करता है y!

आप जैसे मॉडल को फिट कर सकते हैं

yबी=μ+ओफ़्सेट(y)+Δ(y-y¯)+ε
और आप एक द्विघात शब्द भी जोड़ सकते हैं +Δ2(y-y¯)2 या आप एक सामान्यीकृत योजक मॉडल (या प्रतिगमन विभाजन) का उपयोग करके एक रेखीय के साथ रैखिक + द्विघात शब्द को बदल सकते हैं।

रेखीय रूप से आप लाइनों को दिखा सकते हैं जैसा कि आपने दिखाया है, कम अल्फा कारक (*) के साथ, हो सकता है कि लाइनों के एक यादृच्छिक नमूने को दिखाते हुए आगे को कम करें। तब आप ढलान के अनुसार लाइनों को रंग सकते हैं ...

Bland-Altman के भूखंडों के लिए, निक कॉक्स द्वारा एक टिप्पणी में उल्लेख किया गया है, उदाहरण के लिए उदाहरण के लिए देखें प्रति व्यक्ति कई टिप्पणियों के साथ तरीकों के बीच समझौते के या टैग के माध्यम से देखें

(*) अल्फा फैक्टर यहाँ प्लॉट में बिंदुओं को पारदर्शी बनाने वाला एक ग्राफिकल पैरामीटर है, इसलिए पहले प्लॉट किए गए पॉइंट्स को बाद में ओवरप्लोटिंग द्वारा पूरी तरह से नहीं दर्शाया गया है।


1
इसी तरह की भावना में, मुझे लगता है, अंतर की साजिश (ए -बी) बनाम माध्य (ए + बी) / 2 कई क्षेत्रों में एक आम उपकरण है। एक नाम जो चिकित्सा आंकड़ों में अटक गया है, वह है "ब्लैंड-अल्टमैन प्लॉट्स" हालांकि संबंधित लेखकों ने मौलिकता का कोई दावा नहीं किया और विचार कम से कम 1950 के दशक में वापस चला गया।
निक कॉक्स

1

मैं 2 डी स्कैटर प्लॉट पसंद करूंगा। मैं भीड़ वाले क्षेत्र में अधिक विपरीत के लिए हल्के भूरे रंग में संदर्भ रेखा खींचूंगा। भीड़ को कम करने के लिए, सीमा के बिना मार्करों को आकर्षित करें, आगे अल्फा को कम करें, मार्कर का आकार कम करें।

कहा कि, यदि आप वितरण के पंखों की तुलना में विशिष्ट जोड़े में अधिक रुचि रखते हैं, तो dotsबनाम की संचयी राशि के संचयी योग को लाइन-प्लॉट करने का प्रयास करें bars। प्लॉट अभी भी 2D है लेकिन बहुत कम स्याही के साथ। प्लॉटिंग क्षेत्र को बचाने के लिए, आप ट्रेस को 45 ° से घुमा सकते हैं ताकि फ्रेम संदर्भ दिशा के रूप में कार्य करे।

यह प्लॉट डेटा में कोई रुझान भी दिखाएगा। यदि इस प्रक्रिया को स्थिर होने के लिए जाना जाता है, तो जोड़ों को क्रमबद्ध करें, जैसे, उनके ज्यामितीय माध्य sqrt(bars*dots),।


0

मैं आपको रेखाओं को साजिश रचने की सलाह दूंगा क्योंकि आपके पास उनके मध्य और चतुष्कोणों के लिए, या जितने प्रतिशत आप उतने प्रतिशत इस बात को चाहते हैं। मंझला अन्य प्रतिशतक रेखाओं की तुलना में अधिक मोटा / मोटा हो सकता है। यह देखने की क्षमता को संरक्षित करने में मदद करेगा कि आपके क्षेत्र में वर्तमान में उपयोग किए जाने वाले भूखंड की सादगी और परिचित से समझौता किए बिना डेटा वितरण में कैसे व्यवहार करता है।

इसके अलावा, इस तरह के एक उच्च नमूना आकार के साथ, त्रुटि सलाखों के साथ माध्य या औसत प्रवृत्ति पर्याप्त रूप से पर्याप्त होगी क्योंकि आप केंद्रीय सीमा प्रमेय का पूरी तरह से आनंद ले रहे होंगे। बायोमेडिकल क्षेत्र उन युग्मित रेखा भूखंडों पर भी निर्भर करता है, लेकिन अक्सर ऐसा होता है क्योंकि नमूना आकार 10-20 के क्रम पर हो सकता है, इसलिए संभावित उत्तोलन बिंदुओं की कल्पना करना महत्वपूर्ण है।


0

मेरा पहला सुझाव एक बिखराव की साजिश है।

यदि आपके प्लॉट में असमान रूप से फैले 10000 डॉट्स अभी भी एक अस्पष्ट बादल है, तो गर्मी के नक्शे पर विचार करें। X = 10.5, y = 11.5 पर पिक्सेल का रंग दर्शाता है कि 10.45 और 10.55 के बीच कितनी बार मान 11.45 और 11.55 के बीच मान पर मैप किया गया है: 0 = सफेद = RGB (255,255,255), 1 = नीला = RGB (0) 0,255), 2 = RGB (1,0,254), ... 256 और ऊपर = RGB (255,0,0) = लाल


यह अनिवार्य रूप से मुझे कम रिज़ॉल्यूशन के अलावा, 2 डी स्कैटर के समान प्रतिनिधित्व देता है। मैं इस तरह से कुछ कर सकता हूं, लेकिन मैं एक अधिक कॉम्पैक्ट प्रतिनिधित्व के लिए आदर्श रूप से उम्मीद कर रहा था जो ऑर्थोगोनल कुल्हाड़ियों के बजाय एक ही अक्ष के साथ दोनों समूहों के लिए मूल्यों को प्लॉट करता है।
अली_म

1
आपके बिखरे हुए कथानक को देखकर, मुझे लगता है कि आप अपने "स्याही स्थान" के केंद्र में बहुत सारी जानकारी खो रहे हैं। आपको कुछ करने की ज़रूरत है, या तो एक परिवर्तन (लघुगणक?) को लागू करके या मेरे सुझाव के अनुसार मानचित्र के साथ।
डिर्क हॉर्स्टन

माफ़ करना! आपका सुझाव पूरी तरह से एक उचित है - मैंने अभी यह समझाने के लिए एक अच्छा काम नहीं किया है कि मैं क्या देख रहा हूँ। हाँ, एक द्वि-आयामी भूखंड (बिखराव, हीटमैप, समोच्च भूखंड आदि) नमूना बिंदुओं के घनत्व का प्रतिनिधित्व करने में एक अच्छा काम करेगा, लेकिन मुझे लगता है कि मुझे वास्तव में प्रदर्शित करने की आवश्यकता से अधिक जानकारी है। मुझे केवल यह दिखाने की ज़रूरत है कि 'बार' के लिए मान आमतौर पर 'डॉट्स' के मुकाबले अधिक होते हैं। मैं यह दिखाने के लिए सरलतम संभव तरीका ढूंढ रहा हूं कि डेटा के युग्मित स्वरूप को संरक्षित करते हुए।
अली_म

क्या कैटर प्लॉट पर विकर्ण दिशा को अच्छी तरह से इंगित नहीं करता है?
डर्क होर्स्टन

नहीं, लेकिन शायद मुझे अनुचित उम्मीदें हैं :-)
एलिया_
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.