क्या हीट मैप्स "डेटा विज़ुअलाइज़ेशन के सबसे कम प्रभावी प्रकारों में से एक" हैं?

22

प्रश्न: कब (किस प्रकार के डेटा विज़ुअलाइज़ेशन समस्याओं के लिए) हीट मैप सबसे प्रभावी हैं? (विशेष रूप से, सभी अन्य संभावित विज़ुअलाइज़ेशन तकनीकों की तुलना में अधिक प्रभावी?)

हीट मैप्स कब कम से कम प्रभावी होते हैं?

क्या किसी भी सामान्य पैटर्न या अंगूठे के नियम यह तय करने के लिए उपयोग कर सकते हैं कि क्या गर्मी का नक्शा डेटा की कल्पना करने का एक प्रभावी तरीका होने की संभावना है या नहीं, और जब वे अप्रभावी होने की संभावना है?

(मुख्य रूप से मेरे पास 2 श्रेणीगत चर और 1 निरंतर चर के लिए गर्मी के नक्शे हैं, लेकिन अन्य प्रकार के गर्मी मानचित्रों के बारे में राय सुनने में भी दिलचस्पी है।)

संदर्भ: मैं डेटा विज़ुअलाइज़ेशन के बारे में एक ऑनलाइन पाठ्यक्रम ले रहा हूं, और अभी वे अप्रभावी और अधिक उपयोग किए जाने वाले प्लॉट प्रकारों पर चर्चा कर रहे हैं। उन्होंने पहले से ही डायनामाइट प्लॉट्स और पाई चार्ट्स का उल्लेख किया है, और जो कारण अप्रभावी हैं और उनके लिए बेहतर विकल्प क्यों हैं, इसके लिए दिए गए कारण मेरे लिए स्पष्ट और आश्वस्त थे। इसके अलावा, डायनामाइट प्लॉट और पाई चार्ट के बारे में दी गई राय को पुष्टि करने वाले अन्य स्रोतों को खोजना आसान था।

हालांकि, पाठ्यक्रम ने यह भी कहा कि "गर्मी के नक्शे कम से कम प्रभावी प्रकार के डेटा विज़ुअलाइज़ेशन में से एक हैं"। नीचे दिए गए कारणों में से एक पैराफ्रेसिंग। लेकिन जब मैंने Google पर अन्य स्थानों को देखने की कोशिश की, तो मैंने पाई चार्ट और डायनामाइट भूखंडों की प्रभावशीलता के बारे में राय देखने के विपरीत, मुझे बहुत कठिनाई हुई। इसलिए मैं यह जानना चाहूंगा कि पाठ्यक्रम में दिए गए हीट मैप्स का लक्षण वर्णन किस हद तक वैध है, और जब उनके विरुद्ध कारक किसी दिए गए संदर्भ के लिए कम से कम महत्वपूर्ण और सबसे महत्वपूर्ण हैं।

दिए गए कारण थे:

निरंतर पैमाने पर रंग को मैप करना मुश्किल है।

इस नियम के कुछ अपवाद हैं, इसलिए यह आमतौर पर एक सौदा ब्रेकर नहीं है, लेकिन गर्मी के नक्शे के मामले में, समस्या विशेष रूप से कठिन है, क्योंकि पड़ोसी रंगों के आधार पर एक रंग की हमारी धारणा बदल जाती है। इस प्रकार गर्मी के नक्शे व्यक्तिगत परिणामों को देखने के लिए अच्छी तरह से अनुकूल नहीं हैं, यहां तक कि छोटे डेटा सेटों में भी। जिससे होता है:
टेबल लुक-अप विधि का उपयोग करके विशिष्ट प्रश्नों का उत्तर देना आमतौर पर संभव नहीं है, क्योंकि किसी दिए गए रंग के अनुरूप संख्यात्मक सटीकता के साथ पर्याप्त सटीकता के साथ अनुमान लगाना असंभव है।
अक्सर इस तरह के रुझानों को सामने लाने के लिए डेटा को क्लस्टर नहीं किया जाता है।

इस तरह के क्लस्टरिंग के बिना सामान्य समग्र पैटर्न के बारे में कुछ भी अनुमान लगाना मुश्किल या असंभव है।
हीट मैप्स का उपयोग अक्सर "वाह कारक" या सिर्फ शांत दिखने के लिए किया जाता है, खासकर जब एक बहुरंगा ढाल का उपयोग किया जाता है, लेकिन आमतौर पर डेटा को संवाद करने के बेहतर तरीके होते हैं।

एक सामान्य पैमाने पर निरंतर डेटा को प्लॉट करना हमेशा सबसे अच्छा विकल्प होता है। यदि कोई समय घटक है, तो सबसे स्पष्ट विकल्प एक लाइन प्लॉट है।

data-visualization heatmap

— Chill2Macht
स्रोत

15

"हीट मैप्स" की आलोचना (4) की अंतिम पंक्ति के लिए नीचे आती है: वास्तव में ये "बेहतर तरीके" संवाद करने के लिए क्या हैं? (यदि कोई बेहतर तरीके नहीं हैं, तो (1) - (3) दुर्लभ रूप से प्रासंगिक हैं।) यदि उद्देश्य का शाब्दिक अर्थ डेटा का संचार करना है , तो जाहिर है कि बेहतर तरीके हैं: संख्याओं को लिखें। एक विज़ुअलाइज़ेशन का उद्देश्य, हालांकि, डेटा का संचार करने के लिए शायद ही कभी होता है: इसके बजाय, यह एक व्याख्या का समर्थन करने या एक संदेश भेजने के लिए है । आपके स्रोत में क्या व्याख्याएँ हैं और क्या यह दावा है कि उन व्याख्याओं को प्रस्तुत करने के बेहतर तरीके हैं?

— whuber

4

@whuber उस के लिए एक पूरक के रूप में - गर्मी के नक्शे के बारे में एक बहुत अच्छी बात यह है कि कई मामलों में प्रत्येक टाइल पर सीधे कच्चे डेटा (शायद उपयुक्त गोल) को प्रदर्शित करके उन्हें पूरक करना आसान है। यहां तक कि स्प्रेडशीट पर कोशिकाओं के पृष्ठभूमि के रंग के लिए सशर्त स्वरूपण का उपयोग करना बहुत प्रभावी है, और बहुत ही सामान्य, "हीट मैप" प्रकार का है, जिसके संदर्भ में यह देखना मुश्किल है कि उन्हें कैसे सुधार किया जा सकता है।

— सिल्वरफिश

2

मेरी टिप्पणी केवल समालोचना से संबंधित है 1. यह सही है कि रंग (ह्यू) मनोवैज्ञानिक रूप से एक ऑर्डर किए गए पैमाने पर मैप नहीं करता है, हालांकि यह शारीरिक रूप से (लहर लंबाई) करता है। हालाँकि, एक निरर्थक आयाम जैसे चमक को जोड़कर उन्हें और अधिक आसानी से व्याख्या किया जा सकता है। आप प्रकाश की तुलना में अधिक गहरे हो सकते हैं, लेकिन हल्के नीले और गहरे लाल जैसे रंगों का उपयोग कर सकते हैं।

— डेविड लेन

2

संदर्भ पर निर्भर करता है। यहां हीट मैप से प्राप्त मूल्यवान, एक्शन योग्य जानकारी का एक बड़ा उदाहरण है, जिसके लिए मैं कोई अन्य सुविधाजनक या उपयोगी डेटा विज़ुअलाइज़ेशन प्रकार नहीं सोच सकता।

— जेसन सी

5

रंग शानदार है (और, माना जाता है, खराब रूप से चुना गया - यह आर में सिर्फ डिफ़ॉल्ट छवि कॉलोर्माप है), लेकिन यहां माइनस्वीपर प्ले के बारे में एक उदाहरण है कि मैंने कई साल पहले काम किया था। मैंने पाया कि हीटमैप तुरंत प्रकाश में आता है, यह उस समस्या के बारे में संरचना को प्रकट करता है जो एक बार देखने के बाद सहज रूप से स्पष्ट हो जाती है और एक पल के लिए इसके बारे में सोचते हैं, लेकिन जो भूखंड को देखने से पहले तुरंत (ज्यादातर लोगों को) स्पष्ट नहीं है।

— कार्डिनल

15

इसके लिए या इसके लिए "सर्वश्रेष्ठ" साजिश जैसी कोई चीज नहीं है। आप अपने डेटा को कैसे प्लॉट करते हैं यह उस संदेश पर निर्भर करता है जिसे आप बताना चाहते हैं। आमतौर पर इस्तेमाल किए जाने वाले भूखंडों में यह लाभ होता है कि उपयोगकर्ता उन्हें पढ़ने में सक्षम होने की अधिक संभावना रखते हैं। फिर भी, इसका मतलब यह नहीं है कि वे आवश्यक रूप से सबसे अच्छा विकल्प हैं।

गर्मी के नक्शे के बारे में, मैंने उनके खिलाफ कथित तर्कों द्वारा अपनी प्रतिक्रिया देने का आदेश दिया है।

विज्ञापन 1) यदि आप एक एन्कोडिंग चैनल के रूप में रंग पर भरोसा नहीं करते हैं, तो इसके बजाय चमक का उपयोग करें, जिसमें ग्रे से लेकर हल्के ग्रे "रंग" टोन शामिल हैं। सबसे अधिक बार, आप निरंतर चर (5 भी देखें) को बिन करना चाहते हैं, इसलिए आप रंगों की संख्या कम रख सकते हैं और उपयोगकर्ताओं द्वारा डिकोड करना आसान बना सकते हैं। हालांकि यह बहुत जरूरी नहीं है। इस उदाहरण पर एक नज़र डालें , जिसमें निरंतर चर द्विपद नहीं है।

विज्ञापन 2) निश्चित रूप से, उन्हें सटीक मूल्यों को देखने के लिए एक विकल्प के रूप में उपयोग नहीं किया जाना चाहिए। हीट मैप्स को मुख्य रूप से पैटर्न को चित्रित करने के लिए उपयोग किया जाना चाहिए, न कि तालिकाओं को बदलने के लिए।

विज्ञापन 3 + 4) मैं यह नहीं देखता कि यह केवल गर्मी के नक्शे से संबंधित कैसे होगा।

विज्ञापन 5) हीट मैप आदर्श रूप से आवश्यक नहीं हैं, लेकिन असतत चर के साथ उपयोग किया जाता है। निरंतर चर के लिए, हीट मैप्स का उपयोग द्वि-आयामी हिस्टोग्राम या बार चार्ट के रूप में किया जा सकता है, उचित बाइनिंग के साथ-साथ एक एन्कोडिंग चैनल के रूप में चमक।

— g3o2
स्रोत

2

बहुत बढ़िया जवाब! सिवाय मुझे नहीं पता कि "विज्ञापन" का क्या अर्थ है। लैटिन? संक्षिप्त?

— xan

1

धन्यवाद! "विज्ञापन" का अर्थ "ऑन" या "संबंधित" है, मुझे लगता है कि यह लैटिन से आता है।

— g3o2

मैंने कभी भी "विज्ञापन" को उस तरह से नहीं देखा है (cc, @xan)। आपके वर्णन से, मुझे लगता है कि मैं गति का उपयोग कर सकता हूं ।

— गुंग - को पुनः स्थापित मोनिका

1

इसके अलावा अपने चमक-आधारित गर्मी के नक्शे को सही करने के लिए गामा को याद रखें।

— user253751

3

@ गूंग वास्तव में नहीं, आईएमओ। गति के विपरीत इसका कोई अर्थ नहीं है - इसका अर्थ इसके अतिरिक्त है, परिशिष्ट, संदर्भ में, जैसा कि ... उल्लेख नहीं है कि यह पश्चिम में सार्वभौमिक था, लैटिन से आ रहा है और धर्मशास्त्र और वैज्ञानिक और राजनीतिक साहित्य में बड़े पैमाने पर उपयोग किया जाता है, अन्य बातें। एक (मेल) संवाद में, दोनों पक्ष प्रत्येक बिंदुओं के तर्कों का संदर्भ देने के लिए इसका उपयोग करेंगे। ऐसा लगता है कि लिखित भाषा में गिरावट आ रही है, हालांकि, इसकी छंटनी हो जाती है। सामान्य प्रतिस्थापन "विज्ञापन 1.1" के बजाय "1.1" का उपयोग कर रहा है, जो थोड़ा भ्रमित हो सकता है और मुझे थोड़ा अशिष्ट लगता है, लेकिन ओह अच्छी तरह से।

— लुआण

5

कोई यह नहीं कह सकता कि हीट मैप विज़ुअलाइज़ेशन का सबसे कम प्रभावी प्रकार है। मैं यह कहूंगा कि यह आपकी आवश्यकता पर निर्भर करता है। कुछ मामलों में हीट मैप्स बहुत उपयोगी होते हैं। मान लीजिए कि आपको देश-वार (या शहर-वार) अपराध पर एक रिपोर्ट बनानी है। यहां आपके पास एक विशाल डेटा सेट होगा जिसमें समय की निर्भरता हो सकती है।

इसी तरह, मान लें कि आपको शहरों के लिए बिजली की खपत पर एक रिपोर्ट तैयार करनी है। इन मामलों में आप आसानी से हीट मैप के माध्यम से कल्पना कर सकते हैं। यह अधिक समझ में आएगा और कम बोझिल हो जाएगा।

तो, संक्षेप में, यदि आपके पास निरंतर डेटा है और आप एक रिपोर्ट बनाना चाहते हैं जो उत्तरों को जल्दी से इंगित कर सकती है तो हीट मैप सबसे अच्छा है।

— मनीष कुमार
स्रोत

2

ऊर्जा की खपत के लिए, अक्सर हीटमैप की तुलना में कोई बेहतर साजिश नहीं होती है: argustech.be/wp-content/uploads/2012/04/heatmap.png सप्ताह के अंत में और काम के घंटे सही दर्शक पर कूदते हैं। आप बेस लोड देख सकते हैं, आप चोटियों को देख सकते हैं, आप देख सकते हैं कि वे कब होते हैं। आप कुछ सेकंड में किसी भी अजीब पैटर्न का पता लगा सकते हैं, उदाहरण के लिए अगर कुछ विद्युत उपकरण हमेशा चालू रहता है या बहुत जल्दी या बहुत देर से शुरू होता है।

— एरिक ड्यूमिनिल

4

मूल प्रश्न में क्रिटिक 1 में सबसे बड़ी कमी है - यह कि किसी को सूचित करने के लिए गर्मी के नक्शे को पढ़ना मुश्किल है, जो मात्रात्मक जानकारी को संप्रेषित करता है। एक एक्स-स्कैटर प्लॉट या डॉट प्लॉट पर विचार करें, जहां अंतर्निहित मात्रा चार्ट पर सीधे दूरी से संबंधित है - व्याख्या के लिए बहुत सीधा।

गर्मी के नक्शे में, दूसरी ओर, चार्ट पढ़ने वाला व्यक्ति अपनी संतुष्टि के लिए 10% 'रेडर' या 'गहरा' की व्याख्या करने के लिए स्वतंत्रता पर है। उस के शीर्ष पर रंग और छाया के साथ शुरू करने के लिए लोगों की विभिन्न क्षमताओं की समस्या है। ये वास्तविक नुकसान हैं, लेकिन वे सार्वभौमिक रूप से घातक नहीं हैं।

तीसरे समालोचक, इसके विपरीत, अनजाने में एक अवसर की पहचान करते हैं जब गर्मी के नक्शे विशेष रूप से उपयोगी होते हैं - जब डेटा को 2 डी विमान पर क्लस्टर किया जाता है ताकि तीसरे आयाम में समान मान किसी विशेष छाया या रंग के पैच के रूप में दिखाई दें। इसलिए जब गर्मी के नक्शे कुछ चीजों में अप्रभावी होते हैं, तो वे दूसरों के लिए उपयोगी होते हैं, और उन्हें आपके बैग में रहना चाहिए, उसी तरह जैसे गोल्फर अक्सर ड्राइविंग या डालने के लिए बेकार होने के बावजूद पीकिंग वेड या इसी तरह का सामान ले जाते हैं या कारपेंट नहीं करते हैं हथौड़ों की अवहेलना करें क्योंकि वे लकड़ी काटने के लिए अच्छे नहीं हैं।

सामान्य रूप से विज़ुअलाइज़िंग डेटा को पुनरावृत्ति गतिविधि के रूप में देखा जाना चाहिए, जिसमें कुछ समय लगेगा जब आप कई विज़ुअलाइज़ेशन आज़माते हैं, जो डेटा की महत्वपूर्ण विशेषताओं को सामने लाते हैं, जिसमें एक से अधिक तरह के विज़ुअलाइज़ेशन की कोशिश करना शामिल है, और फिर सबसे अच्छी सेटिंग खोजने के लिए प्रयोग करना विशेष विकल्प। न ही यह माना जाना चाहिए कि परिणाम एक दृश्य होगा - कभी-कभी डेटा की कई महत्वपूर्ण विशेषताओं को उजागर करने के लिए डेटा के कई विज़ुअलाइज़ेशन की आवश्यकता होगी। इस संदर्भ में, ऐसे समय होंगे जहां विशेष रूप से डेटा सेट की विशेष विशेषताओं के लिए, गर्मी का नक्शा सबसे प्रभावी होगा, और वर्णित क्लस्टरिंग उन समयों में से एक हो सकता है। कुल मिलाकर, ऐसे कई अवसर होंगे जहाँ एक दृश्य सब कुछ नहीं कर सकता, और एक से अधिक की आवश्यकता होगी।

— रॉबर्ट डी ग्रेफ
स्रोत

3

जैसा कि दूसरों ने बताया है, यह कहना वास्तव में अनुचित है कि गर्मी के नक्शे हमेशा अप्रभावी होते हैं। दरअसल, वे कई उदाहरणों में काफी प्रभावी हैं।

उदाहरण के लिए, यदि आप 4D डेटा की कल्पना करना चाहते हैं, तो यह कई प्लॉटिंग सॉफ़्टवेयर में पहले तीन आयामों को करने के लिए पर्याप्त सरल है। हालाँकि, 4D की पूरी अवधारणा को अवधारणा बनाना बहुत कठिन है। "4th" दिशा / आयाम क्या है?

यही कारण है कि एक हीट मैप प्रभावी हो सकता है, क्योंकि यह समन्वय अक्ष पर पहले तीन आयामों को प्लॉट करने की अनुमति देगा, और चौथे को आपके प्लॉट किए गए विमान (या रेखा पर एक हीट मैप) को स्टैक करके देखा जा सकता है, लेकिन इसकी संभावना कम है)।

लब्बोलुआब यह है कि आपको संदर्भ की आवश्यकता है। आप अपने विज़ुअलाइज़ेशन में क्या देख रहे हैं? साथ ही, एक साथी स्व-शिक्षक के रूप में, मैं आपको बता सकता हूं कि ये ऑनलाइन पाठ्यक्रम बहुत तुच्छ और अनपेक्षित हैं। जब आप किसी संपूर्ण विषय के बारे में पढ़ाए जाने की बजाय विशिष्ट विषयों पर जानकारी / सहायता की तलाश में हों, तो आप उनका उपयोग करना बेहतर समझते हैं।

वैसे भी बेस्ट ऑफ लक।

— अब्राहम हॉरोविट्ज़
स्रोत

3

स्वभाव से, एक हीट मैप दो निरंतर स्वतंत्र चर के साथ डेटा प्रदर्शित करता है (या, काफी समकक्ष नहीं, दो-आयामी वेक्टर अंतरिक्ष से एक स्वतंत्र चर), और एक निरंतर निर्भर चर। उस प्रकार के डेटा के लिए, एक हीट मैप निश्चित रूप से डेटा विज़ुअलाइज़ेशन के सबसे प्रभावी प्रकारों में से एक है । हां, इसकी समस्याएं हैं, लेकिन यह अपरिहार्य है: आपके पास काम करने के लिए वास्तव में केवल दो आयाम हैं और तीन-आयामी स्थान को संरचना-संरक्षण तरीके से मैप नहीं किया जा सकता है , इसलिए आपको रंग को एक आयाम मैप करने या हैक करने की आवश्यकता है समोच्च रेखाएँ आदि खींचना।

$\mathbb{R}^2$ $X\times Y$ $|X| \cdot |Y|$ , जो एक श्रेणीगत चर के लिए परिमित है - दूसरे शब्दों में, दो श्रेणीगत चर के कार्टेशियन उत्पाद को एकल श्रेणीगत चर माना जा सकता है ! और उस प्रकाश में, आप बस अन्य भूखंडों का उपयोग कर सकते हैं, जिसमें गर्मी के नक्शे की समस्याएं नहीं हैं।

यदि आप एक स्थिति है जहाँ दो स्पष्ट चर पर एक गर्मी नक्शा उपयोगी प्रतीत होता है में अपने आप को मिल जाए, यह एक संकेत है कि शायद ये हैं नहीं वास्तव में स्पष्ट चर, बल्कि quantised सतत चर।

— leftaroundabout
स्रोत

4

यह उत्तर दिलचस्प है, लेकिन मुझे लगता है कि श्रेणीबद्ध चर के साथ हीटमैप का उपयोग करने की धारणा को संक्षिप्त रूप देता है। उदाहरण के लिए, कोई अपनी गणनाओं (या कुछ अन्य प्रासंगिक सॉर्टिंग चर) द्वारा श्रेणीबद्ध स्तरों को रैंक कर सकता है और फिर संयुक्त वितरण या कुछ अन्य मात्रा की कल्पना करने के लिए एक हीटमैप का उपयोग कर सकता है जो संयुक्त श्रेणी स्तरों के साथ भिन्न होता है। इसे कोप्लस (और सामान्यीकृत धारणा) से जोड़ा जा सकता है । इस तरह के विज़ुअलाइज़ेशन, जब अच्छी तरह से किए जाते हैं, तो डेटा में वास्तविक संरचना को प्रकट कर सकते हैं जो अन्यथा पता लगाना बहुत मुश्किल होगा। (...)

— कार्डिनल

(...) और, ऐसा दृष्टिकोण किसी यूक्लिडियन स्पेस में श्रेणीबद्ध स्तरों को एम्बेड करने की किसी भी (प्रत्यक्ष) धारणा से स्वतंत्र है।

— कार्डिनल

मैं सोच रहा था कि क्या आपके पास जीन एक्सप्रेशन / माइक्रोएरे डेटा के लिए हीट मैप्स का उपयोग करने के अभ्यास पर कोई टिप्पणी है - तो ऐसा लगेगा जैसे 2 श्रेणीबद्ध और एक निरंतर चर के लिए हीट मैप्स का उपयोग करने के मामले हैं जिनके लिए श्रेणीबद्ध चर वास्तव में नहीं हो सकते हैं निरंतर चर के रूप में व्याख्या की गई। या मुझे लगता है कि सामान्य रूप से श्रेणीबद्ध चर के सहसंबंध मैट्रीस के लिए गर्मी के नक्शे।

— चिल्ल 2 माच

3

हीट मैप्स एक समय श्रृंखला के परिप्रेक्ष्य से कई चर का एक सरलीकृत दृश्य प्रदान करने में महान हैं- समय के साथ डेटा पूर्ण परिवर्तन हो सकता है या जेड स्कोर या अन्य साधनों का उपयोग करके मानकीकृत किया जा सकता है ताकि विभिन्न माप अंतराल या उपसमूह के सापेक्ष परिवर्तनों के साथ चर की जांच की जा सके। यह एक बहुत ही दृश्यमान ध्यान देने योग्य दृश्य प्रदान करता है जो व्यक्ति सहसंबंधों को स्पॉट कर सकता है- या रेखांकन और रेखांकन की एक भीड़ को प्रतिस्थापित कर सकता है। उनका उपयोग संभावित आयामी कमी का आकलन करने के लिए प्रीप्रोसेसिंग में भी किया जा सकता है- अर्थात फैक्टरिंग या पीसीए।

इस दृष्टिकोण का उपयोग करके सहसंबंधों का उपयोग करते समय खराब-अंतराल वाले चर और अन्य कारक छिपे और पारित हो सकते हैं। समान छिपे हुए पहलू लाइन ग्राफ के साथ घटित होते हैं- हालाँकि बड़ी संख्या में चर दिए जाते हैं- मेरा अनुभव यह है कि हीट मैप्स में इतनी जानकारी होती है कि कोई उपयोगकर्ता न तो हस्तक्षेप करने वाले पहलुओं पर विचार करता है और न ही अन्य छिपे हुए कारकों पर।

यह एक प्रगतिशील अर्थशास्त्री के दृष्टिकोण से डेटा उत्पादन के क्षेत्र में 20 साल के साथ एक प्रगतिशील वैज्ञानिक दृष्टिकोण से है और इस तरह के डेटा के साथ आम जनता को शिक्षित करने का काम करता है।

— पॉल टुलोच
स्रोत

1

स्कैम्प्लॉट पर हीटमैप्स फायदेमंद होते हैं जब स्कैल्पलॉट पर देखने के लिए बहुत सारे डेटा पॉइंट होते हैं। इसे पारभासी डेटा बिंदुओं का उपयोग करके एक स्कैप्लेट में शमन किया जा सकता है लेकिन एक निश्चित सीमा से परे यह डेटा को संक्षेप में प्रस्तुत करना बेहतर हो जाता है।

में इस ब्लॉग पोस्ट scatterplots कठिन जा रहा है व्याख्या करने के लिए दिया जाता है की एक सम्मोहक उदाहरण।

एक स्कैल्पलॉट केवल एक निश्चित सीमा तक घनत्व का प्रतिनिधित्व कर सकता है - "अंक हर जगह" की सीमा ...

प्लॉट घनत्व, अंक नहीं

इसका उपाय यह है कि बिन्दुओं के बजाय बिंदु बिंदु घनत्व की साजिश की जाए। इस पद्धति को हम पहले से ही एक आयाम में हिस्टोग्राम के रूप में जानते हैं।

दो आयामों में, इसे करने के कई तरीके हैं। बिन आकृतियों को समान रूप से विमान को समेटने की किसी भी विधि से लिया जा सकता है, जैसे कि वर्ग या हेक्सागोन्स। प्रत्येक टाइल के लिए, टाइल के अंदर डेटा बिंदुओं की संख्या को गिना जाता है। फिर टाइल को बिंदुओं की संख्या के अनुसार एक रंग सौंपा गया है।

2d बिन काउंट के हीटमैप पर ggplot2 डॉक्स से एक समान कथन :

यह geom_point()ओवरप्लोटिंग की उपस्थिति में एक उपयोगी विकल्प है ।

के डॉक्स में geom_point():

Overplotting

स्कैल्पप्लॉट के साथ सबसे बड़ी संभावित समस्या ओवरप्लेटिंग है: जब भी आपके पास कुछ बिंदुओं से अधिक होता है, तो अंक एक दूसरे के ऊपर स्थित हो सकते हैं। यह कथानक के दृश्य स्वरूप को गंभीर रूप से विकृत कर सकता है। इस समस्या का कोई एक समाधान नहीं है, लेकिन कुछ तकनीकें हैं जो मदद कर सकती हैं। आप के साथ अतिरिक्त जानकारी जोड़ सकते हैं geom_smooth(), geom_quantile()या geom_density_2d()। यदि आपके पास कुछ विशिष्ट x मान हैं, तो geom_boxplot()यह उपयोगी भी हो सकता है।

फिर, आप प्रत्येक स्थान पर अंकों की संख्या को संक्षेप में और प्रदर्शित कि किसी तरह से कर सकते हैं, का उपयोग कर geom_count(), geom_hex()या geom_density2d()।

एक अन्य तकनीक यह है कि अंकों को पारदर्शी बनाया जाए (जैसे geom_point(alpha = 0.05)) या बहुत छोटा (जैसे geom_point(shape = "."))।

— qwr
स्रोत