कुलबबैक-लीब्लर डाइवर्जेंस की तुलना में वासेरस्टीन मीट्रिक के क्या फायदे हैं?

25

Wasserstein metric और Kullback-Leibler divergence के बीच व्यावहारिक अंतर क्या है ? वासेरस्टीन मैट्रिक को पृथ्वी के मूवर की दूरी के रूप में भी जाना जाता है ।

विकिपीडिया से:

वासेरस्टीन (या वासेरस्टीन) मीट्रिक एक दूरी फ़ंक्शन है जो किसी दिए गए मीट्रिक स्पेस एम पर संभाव्यता वितरण के बीच परिभाषित किया गया है।

तथा

कुलबबैक-लिबलर विचलन एक उपाय है कि कैसे एक संभावना वितरण दूसरी अपेक्षित संभावना वितरण से विचलन करता है।

मैंने देखा है कि केएल को मशीन सीखने के कार्यान्वयन में इस्तेमाल किया गया है, लेकिन मैं हाल ही में वासेरस्टीन मैट्रिक में आया हूं। क्या एक या दूसरे का उपयोग करने के लिए एक अच्छी दिशानिर्देश है?

(मेरे पास एक नया टैग बनाने के लिए अपर्याप्त प्रतिष्ठा है Wassersteinया Earth mover's distance)

— थॉमस फॉसंग्कर
स्रोत

जहाँ मैं

— वासेरस्टीन

1

पोस्टर अनुरोध के आधार पर वासेरस्टीन टैग जोड़ने के लिए पोस्ट का संपादन। एक उत्तर भी जोड़ रहे हैं।

— लुकास रॉबर्ट्स

28

जब Wasserstein मीट्रिक केएल विचलन की तुलना के लाभ पर विचार करें, तो सबसे स्पष्ट एक है कि डब्ल्यू, जबकि केएल विचलन मीट्रिक नहीं है के बाद से केएल सममित नहीं है (यानी है सामान्य रूप में) और त्रिकोण असमानता संतुष्ट नहीं करता (यानी $D_{KL}(P||Q) \neq D_{KL}(Q||P)$ सामान्य रूप से पकड़ में नहीं आता है)। $D_{KL}(R||P) \leq D_{KL}(Q||P) + D_{KL}(R||Q)$

जैसा कि व्यावहारिक अंतर की बात आती है, तो सबसे महत्वपूर्ण में से एक यह है कि केएल (और कई अन्य उपायों के विपरीत) वासेरस्टीन ने मीट्रिक अंतरिक्ष को ध्यान में रखा है और कम सार शब्दों में इसका क्या अर्थ है शायद सबसे अच्छा उदाहरण द्वारा समझाया गया है (छोड़ने के लिए स्वतंत्र महसूस करें) आंकड़ा, कोड सिर्फ यह उत्पादन के लिए):

# define samples this way as scipy.stats.wasserstein_distance can't take probability distributions directly
sampP = [1,1,1,1,1,1,2,3,4,5]
sampQ = [1,2,3,4,5,5,5,5,5,5]
# and for scipy.stats.entropy (gives KL divergence here) we want distributions
P = np.unique(sampP, return_counts=True)[1] / len(sampP)
Q = np.unique(sampQ, return_counts=True)[1] / len(sampQ)
# compare to this sample / distribution:
sampQ2 = [1,2,2,2,2,2,2,3,4,5]
Q2 = np.unique(sampQ2, return_counts=True)[1] / len(sampQ2)

fig = plt.figure(figsize=(10,7))
fig.subplots_adjust(wspace=0.5)
plt.subplot(2,2,1)
plt.bar(np.arange(len(P)), P, color='r')
plt.xticks(np.arange(len(P)), np.arange(1,5), fontsize=0)
plt.subplot(2,2,3)
plt.bar(np.arange(len(Q)), Q, color='b')
plt.xticks(np.arange(len(Q)), np.arange(1,5))
plt.title("Wasserstein distance {:.4}\nKL divergence {:.4}".format(
    scipy.stats.wasserstein_distance(sampP, sampQ), scipy.stats.entropy(P, Q)), fontsize=10)
plt.subplot(2,2,2)
plt.bar(np.arange(len(P)), P, color='r')
plt.xticks(np.arange(len(P)), np.arange(1,5), fontsize=0)
plt.subplot(2,2,4)
plt.bar(np.arange(len(Q2)), Q2, color='b')
plt.xticks(np.arange(len(Q2)), np.arange(1,5))
plt.title("Wasserstein distance {:.4}\nKL divergence {:.4}".format(
    scipy.stats.wasserstein_distance(sampP, sampQ2), scipy.stats.entropy(P, Q2)), fontsize=10)
plt.show()

यहां लाल और नीले रंग के वितरण के बीच के उपाय केएल विचलन के लिए समान हैं, जबकि वासेरस्टीन दूरी एक सड़क के रूप में एक्स-अक्ष का उपयोग करके लाल राज्य से नीले राज्य में संभाव्यता द्रव्यमान को लाने के लिए आवश्यक कार्य को मापता है। यह माप जाहिर है कि संभाव्यता द्रव्यमान से अधिक बड़ा है (इसलिए उर्फ पृथ्वी मूवर्स की दूरी)। तो जो आप उपयोग करना चाहते हैं वह आपके आवेदन क्षेत्र और आप क्या मापना चाहते हैं, उस पर निर्भर करता है। एक नोट के रूप में, केएल विचलन के बजाय जेन्सेन-शैनन दूरी जैसे अन्य विकल्प भी हैं जो उचित मैट्रिक्स हैं।

— Antike
स्रोत

6

वासेरस्टीन मीट्रिक सबसे अधिक इष्टतम परिवहन समस्याओं में दिखाई देता है जहां लक्ष्य दिए गए कॉन्फ़िगरेशन से चीजों को न्यूनतम लागत या न्यूनतम दूरी में वांछित कॉन्फ़िगरेशन में स्थानांतरित करना है। कुल्बैक-लीब्लर (केएल) एक विचलन है (एक मीट्रिक नहीं) और सांख्यिकी, मशीन सीखने और सूचना सिद्धांत में बहुत बार दिखाई देता है।

इसके अलावा, वासेरस्टीन मीट्रिक को एक ही संभावना स्थान पर होने के लिए दोनों उपायों की आवश्यकता नहीं होती है, जबकि केएल विचलन को एक ही संभावना स्थान पर परिभाषित करने के लिए दोनों उपायों की आवश्यकता होती है।

$k$ $\mu_i$ $\Sigma_i$ $i=1,2$

W_{2} (N_{0}, N_{1})^{2} = ‖ μ_{1} - μ_{2} ‖_{2}^{2} + t r (Σ_{1} + Σ_{2} - 2 (Σ_{2}^{1 / 2} Σ_{1} Σ_{2}^{1 / 2})^{1 / 2})

$W_{2} (\mathcal{N}_0, \mathcal{N}_1)^2 = \| \mu_1 - \mu_2 \|_2^2 + \mathop{\mathrm{tr}} \bigl( \Sigma_1 + \Sigma_2 - 2 \bigl( \Sigma_2^{1/2} \Sigma_1 \Sigma_2^{1/2} \bigr)^{1/2} \bigr)$

D_{KL} (N_{0}, N_{1}) = \frac{1}{2} (tr (Σ_{1}^{- 1} Σ_{0}) + (μ_{1} - μ_{0})^{T} Σ_{1}^{- 1} (μ_{1} - μ_{0}) - k + \ln (\frac{det Σ_{1}}{det Σ_{0}})) .

$D_\text{KL} (\mathcal{N}_0, \mathcal{N}_1) = \frac{1}{2}\left( \operatorname{tr} \left(\Sigma_1^{-1}\Sigma_0\right) + (\mu_1 - \mu_0)^\mathsf{T} \Sigma_1^{-1}(\mu_1 - \mu_0) - k + \ln \left(\frac{\det\Sigma_1}{\det\Sigma_0}\right) \right).$

Σ_{1} = Σ_{2} = w I_{k}

$\Sigma_1=\Sigma_2=wI_k$

μ_{1} \neq μ_{2}

$\mu_1\neq\mu_2$

0

$0$

- k

$-k$

0

$0$ , इसलिए ये दो मात्राएँ बन जाती हैं: और ध्यान दें कि यदि वैरिएंस्टाइन दूरी बदलती नहीं है, अगर विचरण में परिवर्तन होता है ( जैसा कि कोवरियन मैट्रिसेस में बड़ी मात्रा के रूप में जाता है) जबकि केएल विचलन करता है। इसका कारण यह है कि वासेरस्टीन दूरी दो प्रायिकता उपायों के संयुक्त समर्थन स्थानों में एक दूरी समारोह है। इसके विपरीत केएल विचलन एक विचलन है और यह विचलन वितरण के सूचना स्थान (शोर अनुपात के संकेत) के आधार पर बदलता है।

W_{2} (N_{0}, N_{1})^{2} = ‖ μ_{1} - μ_{2} ‖_{2}^{2}

$W_{2} (\mathcal{N}_0, \mathcal{N}_1)^2 = \| \mu_1 - \mu_2 \|_2^2$

D_{KL} (N_{0}, N_{1}) = (μ_{1} - μ_{0})^{T} Σ_{1}^{- 1} (μ_{1} - μ_{0}) .

$D_\text{KL} (\mathcal{N}_0, \mathcal{N}_1) = (\mu_1 - \mu_0)^\mathsf{T} \Sigma_1^{-1}(\mu_1 - \mu_0).$

w

$w$

— लुकास रॉबर्ट्स
स्रोत

1

वासेरस्टीन मीट्रिक मॉडल के सत्यापन में उपयोगी है क्योंकि इसकी इकाइयां स्वयं प्रतिक्रिया की हैं। उदाहरण के लिए, यदि आप एक ही प्रणाली के दो स्टोकेस्टिक अभ्यावेदन (उदाहरण के लिए एक घटा-क्रम-मॉडल), और तुलना कर रहे हैं , और प्रतिक्रिया विस्थापन की इकाइयां है, तो वासेरस्टीन मीट्रिक भी विस्थापन की इकाइयों में है। यदि आप एक नियतात्मक के लिए अपने स्टोकेस्टिक प्रतिनिधित्व को कम कर रहे थे, तो वितरण का CDF एक कदम फ़ंक्शन है। वासेरस्टीन मीट्रिक मूल्यों का अंतर है। $P$ $Q$

मुझे लगता है कि यह संपत्ति दो यादृच्छिक चर के बीच पूर्ण अंतर के बारे में बात करने के लिए एक बहुत ही स्वाभाविक विस्तार है

— जस्टिन विनोकुर
स्रोत