जब Wasserstein मीट्रिक केएल विचलन की तुलना के लाभ पर विचार करें, तो सबसे स्पष्ट एक है कि डब्ल्यू, जबकि केएल विचलन मीट्रिक नहीं है के बाद से केएल सममित नहीं है (यानी है सामान्य रूप में) और त्रिकोण असमानता संतुष्ट नहीं करता (यानी डी कश्मीर एल ( आर | | पी ) ≤ डी कश्मीर एल ( क्यू | | पी ) + डी कश्मीरDKL(P||Q)≠DKL(Q||P)सामान्य रूप से पकड़ में नहीं आता है)।DKL(R||P)≤DKL(Q||P)+DKL(R||Q)
जैसा कि व्यावहारिक अंतर की बात आती है, तो सबसे महत्वपूर्ण में से एक यह है कि केएल (और कई अन्य उपायों के विपरीत) वासेरस्टीन ने मीट्रिक अंतरिक्ष को ध्यान में रखा है और कम सार शब्दों में इसका क्या अर्थ है शायद सबसे अच्छा उदाहरण द्वारा समझाया गया है (छोड़ने के लिए स्वतंत्र महसूस करें) आंकड़ा, कोड सिर्फ यह उत्पादन के लिए):
# define samples this way as scipy.stats.wasserstein_distance can't take probability distributions directly
sampP = [1,1,1,1,1,1,2,3,4,5]
sampQ = [1,2,3,4,5,5,5,5,5,5]
# and for scipy.stats.entropy (gives KL divergence here) we want distributions
P = np.unique(sampP, return_counts=True)[1] / len(sampP)
Q = np.unique(sampQ, return_counts=True)[1] / len(sampQ)
# compare to this sample / distribution:
sampQ2 = [1,2,2,2,2,2,2,3,4,5]
Q2 = np.unique(sampQ2, return_counts=True)[1] / len(sampQ2)
fig = plt.figure(figsize=(10,7))
fig.subplots_adjust(wspace=0.5)
plt.subplot(2,2,1)
plt.bar(np.arange(len(P)), P, color='r')
plt.xticks(np.arange(len(P)), np.arange(1,5), fontsize=0)
plt.subplot(2,2,3)
plt.bar(np.arange(len(Q)), Q, color='b')
plt.xticks(np.arange(len(Q)), np.arange(1,5))
plt.title("Wasserstein distance {:.4}\nKL divergence {:.4}".format(
scipy.stats.wasserstein_distance(sampP, sampQ), scipy.stats.entropy(P, Q)), fontsize=10)
plt.subplot(2,2,2)
plt.bar(np.arange(len(P)), P, color='r')
plt.xticks(np.arange(len(P)), np.arange(1,5), fontsize=0)
plt.subplot(2,2,4)
plt.bar(np.arange(len(Q2)), Q2, color='b')
plt.xticks(np.arange(len(Q2)), np.arange(1,5))
plt.title("Wasserstein distance {:.4}\nKL divergence {:.4}".format(
scipy.stats.wasserstein_distance(sampP, sampQ2), scipy.stats.entropy(P, Q2)), fontsize=10)
plt.show()
यहां लाल और नीले रंग के वितरण के बीच के उपाय केएल विचलन के लिए समान हैं, जबकि वासेरस्टीन दूरी एक सड़क के रूप में एक्स-अक्ष का उपयोग करके लाल राज्य से नीले राज्य में संभाव्यता द्रव्यमान को लाने के लिए आवश्यक कार्य को मापता है। यह माप जाहिर है कि संभाव्यता द्रव्यमान से अधिक बड़ा है (इसलिए उर्फ पृथ्वी मूवर्स की दूरी)। तो जो आप उपयोग करना चाहते हैं वह आपके आवेदन क्षेत्र और आप क्या मापना चाहते हैं, उस पर निर्भर करता है। एक नोट के रूप में, केएल विचलन के बजाय जेन्सेन-शैनन दूरी जैसे अन्य विकल्प भी हैं जो उचित मैट्रिक्स हैं।