मैं मेटप्लोटलिब में घनत्व द्वारा एक बिखरे हुए प्लॉट को कैसे रंगीन बना सकता हूं?

Question 1

मैं एक स्कैटर प्लॉट बनाना चाहूंगा जहां प्रत्येक बिंदु पास के बिंदुओं के स्थानिक घनत्व द्वारा रंगीन हो।

मैं एक बहुत ही समान प्रश्न पर आया हूं, जो R का उपयोग करके इसका एक उदाहरण दिखाता है:

स्कैटर प्लॉट: प्रतीक रंग अतिव्यापी बिंदुओं की संख्या का प्रतिनिधित्व करता है

माइटप्लोटलिब का उपयोग करके अजगर में कुछ इसी तरह से पूरा करने का सबसे अच्छा तरीका क्या है?

Question 2

hist2dया hexbinजैसा कि @askewchan ने सुझाव दिया है, इसके अलावा , आप उसी विधि का उपयोग कर सकते हैं जो आपके द्वारा उपयोग किए गए प्रश्न में स्वीकृत उत्तर है।

यदि आप ऐसा करना चाहते हैं:

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import gaussian_kde

# Generate fake data
x = np.random.normal(size=1000)
y = x * 3 + np.random.normal(size=1000)

# Calculate the point density
xy = np.vstack([x,y])
z = gaussian_kde(xy)(xy)

fig, ax = plt.subplots()
ax.scatter(x, y, c=z, s=100, edgecolor='')
plt.show()

यहाँ छवि विवरण दर्ज करें

यदि आप चाहते हैं कि घनत्व के क्रम में बिंदुओं को प्लॉट किया जाए ताकि घने बिंदु हमेशा शीर्ष पर (लिंक किए गए उदाहरण के समान) हों, तो बस उन्हें z-मानों द्वारा क्रमबद्ध करें। मैं यहाँ एक छोटे मार्कर आकार का उपयोग करने जा रहा हूँ क्योंकि यह थोड़ा बेहतर दिखता है:

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import gaussian_kde

# Generate fake data
x = np.random.normal(size=1000)
y = x * 3 + np.random.normal(size=1000)

# Calculate the point density
xy = np.vstack([x,y])
z = gaussian_kde(xy)(xy)

# Sort the points by density, so that the densest points are plotted last
idx = z.argsort()
x, y, z = x[idx], y[idx], z[idx]

fig, ax = plt.subplots()
ax.scatter(x, y, c=z, s=50, edgecolor='')
plt.show()

यहाँ छवि विवरण दर्ज करें

Question 3

आप हिस्टोग्राम बना सकते हैं:

import numpy as np
import matplotlib.pyplot as plt

# fake data:
a = np.random.normal(size=1000)
b = a*3 + np.random.normal(size=1000)

plt.hist2d(a, b, (50, 50), cmap=plt.cm.jet)
plt.colorbar()

2dhist

Question 4

इसके अलावा, अगर बिंदु की संख्या केडीई गणना को बहुत धीमा कर देती है, तो रंग को np.histogram2d में इंटरपोल किया जा सकता है [टिप्पणियों के जवाब में अपडेट करें: यदि आप कलरबार दिखाना चाहते हैं, तो ax.scatter () के बजाय plt.scatter () का उपयोग करें। plt.colorbar ()] द्वारा:

import numpy as np
import matplotlib.pyplot as plt
from matplotlib import cm
from matplotlib.colors import Normalize 
from scipy.interpolate import interpn

def density_scatter( x , y, ax = None, sort = True, bins = 20, **kwargs )   :
    """
    Scatter plot colored by 2d histogram
    """
    if ax is None :
        fig , ax = plt.subplots()
    data , x_e, y_e = np.histogram2d( x, y, bins = bins, density = True )
    z = interpn( ( 0.5*(x_e[1:] + x_e[:-1]) , 0.5*(y_e[1:]+y_e[:-1]) ) , data , np.vstack([x,y]).T , method = "splinef2d", bounds_error = False)

    #To be sure to plot all data
    z[np.where(np.isnan(z))] = 0.0

    # Sort the points by density, so that the densest points are plotted last
    if sort :
        idx = z.argsort()
        x, y, z = x[idx], y[idx], z[idx]

    ax.scatter( x, y, c=z, **kwargs )

    norm = Normalize(vmin = np.min(z), vmax = np.max(z))
    cbar = fig.colorbar(cm.ScalarMappable(norm = norm), ax=ax)
    cbar.ax.set_ylabel('Density')

    return ax


if "__main__" == __name__ :

    x = np.random.normal(size=100000)
    y = x * 3 + np.random.normal(size=100000)
    density_scatter( x, y, bins = [30,30] )

Question 5

प्लॉटिंग> 100k डेटा पॉइंट्स?

स्वीकार किए जाते हैं जवाब , का उपयोग कर gaussian_kde () बहुत समय लगेगा। मेरी मशीन पर, 100k पंक्तियों में लगभग 11 मिनट लगे । यहाँ मैं दो वैकल्पिक विधियाँ ( mpl- तितर बितर-घनत्व और डेटाशेयर ) जोड़ूँगा और समान डेटासेट के साथ दिए गए उत्तरों की तुलना करूँगा ।

निम्नलिखित में, मैंने 100k पंक्तियों के एक परीक्षण डेटा सेट का उपयोग किया:

import matplotlib.pyplot as plt
import numpy as np

# Fake data for testing
x = np.random.normal(size=100000)
y = x * 3 + np.random.normal(size=100000)

आउटपुट और गणना समय की तुलना

नीचे विभिन्न तरीकों की तुलना है।

`1: mpl-scatter-density`

इंस्टालेशन

pip install mpl-scatter-density

उदाहरण कोड

import mpl_scatter_density # adds projection='scatter_density'
from matplotlib.colors import LinearSegmentedColormap

# "Viridis-like" colormap with white background
white_viridis = LinearSegmentedColormap.from_list('white_viridis', [
    (0, '#ffffff'),
    (1e-20, '#440053'),
    (0.2, '#404388'),
    (0.4, '#2a788e'),
    (0.6, '#21a784'),
    (0.8, '#78d151'),
    (1, '#fde624'),
], N=256)

def using_mpl_scatter_density(fig, x, y):
    ax = fig.add_subplot(1, 1, 1, projection='scatter_density')
    density = ax.scatter_density(x, y, cmap=white_viridis)
    fig.colorbar(density, label='Number of points per pixel')

fig = plt.figure()
using_mpl_scatter_density(fig, x, y)
plt.show()

इसे खींचने में 0.05 सेकंड का समय लगा:

और ज़ूम इन काफी अच्छा लगता है:

`2: datashader`

दाताशदर एक दिलचस्प परियोजना है। हालाँकि, matplotlib के लिए समर्थन सिप 2020 के रूप में WIP है। मैंने nictictus के क्लोन से mpl शाखा स्थापित की है :

pip install "git+https://github.com/nvictus/datashader.git@mpl"

कोड ( यहाँ dsshow का स्रोत ):

from functools import partial

import datashader as ds
from datashader.mpl_ext import dsshow
import pandas as pd

dyn = partial(ds.tf.dynspread, max_px=40, threshold=0.5)

def using_datashader(ax, x, y):

    df = pd.DataFrame(dict(x=x, y=y))
    da1 = dsshow(df, ds.Point('x', 'y'), spread_fn=dyn, aspect='auto', ax=ax)
    plt.colorbar(da1)

fig, ax = plt.subplots()
using_datashader(ax, x, y)
plt.show()

इसे ड्रा करने में 0.83 सेकंड लगे:

और ज़ूम की गई छवि बहुत अच्छी लगती है!

`3: scatter_with_gaussian_kde`

def scatter_with_gaussian_kde(ax, x, y):
    # https://stackoverflow.com/a/20107592/3015186
    # Answer by Joel Kington

    xy = np.vstack([x, y])
    z = gaussian_kde(xy)(xy)

    ax.scatter(x, y, c=z, s=100, edgecolor='')

इसे बनाने में 11 मिनट लगे:

`4: using_hist2d`

import matplotlib.pyplot as plt
def using_hist2d(ax, x, y, bins=(50, 50)):
    # https://stackoverflow.com/a/20105673/3015186
    # Answer by askewchan
    ax.hist2d(x, y, bins, cmap=plt.cm.jet)

इस डिब्बे को खींचने में 0.021 सेकेंड लगते हैं = (50,50):
इस डिब्बे को खींचने में 0.173 सेकेंड का समय लगा (= 1000,1000):
विपक्ष: ज़ूम-इन डेटा mpl-बिखराव-घनत्व या डेटाशेयर के साथ उतना अच्छा नहीं दिखता है। इसके अलावा, आपको अपने आप डिब्बे की संख्या निर्धारित करनी होगी।

`5: density_scatter`

कोड Guillaume द्वारा उत्तर में है ।
इसे बीन = (50,50) के साथ खींचने में 0.073 सेकेंड का समय लगा:
इसे बिन्स के साथ निकालने के लिए 0.368 s = (1000,1000) लिया गया: