अधिकतम औसत विसंगति (दूरी वितरण)


15

मेरे पास दो डेटा सेट (स्रोत और लक्ष्य डेटा) हैं जो विभिन्न वितरण का पालन करते हैं। मैं MMD का उपयोग कर रहा हूं - जो कि स्रोत और लक्ष्य डेटा के बीच सीमांत वितरण की गणना करने के लिए एक गैर-पैरामीट्रिक दूरी वितरण है।

स्रोत डेटा, Xs

लक्ष्य डेटा, Xt

अनुकूलन मैट्रिक्स ए

* अनुमानित डेटा, Zs = A '* Xs और Zt = A' Xt

* MMD => दूरी (P (Xs), P (Xt)) = | mean (A'Xs) - माध्य (A ' Xt) |

इसका अर्थ है: मूल स्थान में स्रोत और लक्ष्य डेटा के बीच वितरण की दूरी अनुमानित स्रोत के साधन और एम्बेडेड स्थान में लक्ष्य डेटा के बीच की दूरी के बराबर है।

मेरे पास MMD की अवधारणा के बारे में एक प्रश्न है।

MMD सूत्र में, अव्यक्त स्थान में कंप्यूटिंग दूरी के साथ, हम मूल स्थान में वितरण की दूरी को क्यों माप सकते हैं?

धन्यवाद


आपने वास्तव में अभी तक एक सवाल नहीं पूछा है: आपने केवल हमें बताया है कि आप भ्रमित हैं!
whuber

जवाबों:


44

यह MMD के अवलोकन को थोड़ा और देने में मदद कर सकता है।

सामान्य तौर पर, MMD को वितरण के बीच दूरियों का प्रतिनिधित्व करने के विचार के रूप में परिभाषित किया जाता है ताकि सुविधाओं की औसत एम्बेडिंग के बीच दूरी हो । यह कहना है कि हमारे पास और एक सेट पर वितरण है । MMD को एक फीचर मैप से परिभाषित किया जाता है , जहां को एक प्रजनन कर्नेल हिल्बर्ट स्पेस कहा जाता है। सामान्य तौर पर, MMD PQX φ:XHH

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H.

एक उदाहरण के रूप में, हमारे पास और । उस स्थिति में: ताकि यह MMD केवल दो वितरणों के साधनों के बीच की दूरी हो। इस तरह से मिलान वितरण उनके साधनों से मेल खाएगा, हालांकि वे अपने विचरण या अन्य तरीकों से भिन्न हो सकते हैं।X=H=Rdφ(x)=x

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[X]EYQ[Y]Rd=μPμQRd,

आपका मामला थोड़ा अलग है: हमारे पास और , जिसमें , जहां एक मैट्रिक्स है। इसलिए हमारे पास यह MMD माध्य के दो अलग-अलग अनुमानों के बीच का अंतर है। यदि या मानचित्रण अन्यथा अक्षम नहीं है,X=RdH=Rpφ(x)=AxAd×p

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[AX]EYQ[AY]Rp=AEXP[X]AEYQ[Y]Rp=A(μPμQ)Rp.
p<dA पिछले एक की तुलना में: यह पिछले वितरण के कुछ वितरणों के बीच अंतर नहीं करता है।

आप मजबूत दूरी भी बना सकते हैं। उदाहरण के लिए, यदि और आप , तो MMD , और न केवल विभिन्न साधनों के साथ बल्कि विभिन्न भिन्नताओं के साथ वितरण को भी भेद कर सकते हैं।X=Rφ(x)=(x,x2)(EXEY)2+(EX2EY2)2

और आप इससे बहुत अधिक मजबूत हो सकते हैं: यदि मैप्स सामान्य पुन: उत्पन्न करने वाली कर्नेल हिल्बर्ट स्थान पर हैं, तो आप MMD की गणना करने के लिए कर्नेल ट्रिक लागू कर सकते हैं , और यह पता चलता है कि गाउन्स कर्नेल सहित कई कर्नेल, MMD को जन्म देते हैं। यदि शून्य और केवल वितरण समान हैं।φ

विशेष रूप से, , आप जो आप सीधे नमूनों के साथ अनुमान लगा सकते हैं।k(x,y)=φ(x),φ(y)H

MMD2(P,Q)=EXPφ(X)EYQφ(Y)H2=EXPφ(X),EXPφ(X)H+EYQφ(Y),EYQφ(Y)H2EXPφ(X),EYQφ(Y)H=EX,XPk(X,X)+EY,YQk(Y,Y)2EXP,YQk(X,Y)


अद्यतन: यहाँ पर नाम में "अधिकतम" कहाँ से आता है।

फीचर मैप मैप्स में एक प्रजनन कर्नेल हिल्बर्ट स्पेस। ये फ़ंक्शंस के स्थान हैं , और एक प्रमुख संपत्ति को संतुष्ट करते हैं (जिसे प्रजनन संपत्ति कहा जाता है ): लिए किसी भी ।φ:XHf,φ(x)H=f(x)fH

सबसे सरल उदाहरण में, के साथ , हम प्रत्येक देखने समारोह कुछ करने के लिए इसी के रूप में , द्वारा । फिर प्रजनन संपत्ति को चाहिए।X=H=Rdφ(x)=xfHwRdf(x)=wxf,φ(x)H=w,xRd

अधिक जटिल सेटिंग्स में, एक गाऊसी कर्नेल की तरह, एक अधिक जटिल कार्य है, लेकिन प्रजनन संपत्ति अभी भी रखती है।f

अब, हम MMD का एक वैकल्पिक लक्षण वर्णन दे सकते हैं: दूसरी पंक्ति हिल्बर्ट रिक्त स्थान में मानदंडों के बारे में एक सामान्य तथ्य है:

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]Hf,EYQ[φ(Y)]H=supfH:fH1EXP[f,φ(X)H]EYQ[f,φ(Y)H]=supfH:fH1EXP[f(X)]EYQ[f(Y)].
supf:f1f,gH=g द्वारा प्राप्त किया जाता है । चौथा एक तकनीकी स्थिति पर निर्भर करता है जिसे Bochner integrability के रूप में जाना जाता है लेकिन यह सत्य है जैसे कि बंधी हुई गुठली या बंधे समर्थन के साथ वितरण। फिर अंत में हम प्रजनन संपत्ति का उपयोग करते हैं।f=g/g

यह अधिकतम है परीक्षण कार्यों पर, - यह अंतिम पंक्ति कारण है कि यह "अधिकतम मतलब विसंगति" कहा जाता है है की इकाई गेंद में , दो वितरण के बीच मतलब अंतर की।fH


आपके स्पष्टीकरण के लिए धन्यवाद, यह मेरे लिए और अधिक स्पष्ट हो जाता है; फिर भी मुझे यह अवधारणा नहीं मिली, शुरुआत में, आपने कहा था: "एमएमडी को वितरण के बीच की दूरी का प्रतिनिधित्व करने के विचार से परिभाषित किया गया है, जो सुविधाओं के औसत एम्बेडिंग के बीच की दूरी के रूप में है।" यह विचार क्यों सच है?
महसा

"MMD को वितरण के बीच की दूरी का प्रतिनिधित्व करने के विचार से परिभाषित किया गया है ताकि सुविधाओं के औसत एम्बेडिंग के बीच दूरी हो।" यह विचार सही क्यों है? क्या यह आरकेएचएस स्पेस से संबंधित है?
महसा

1
यह सिर्फ एक परिभाषा है: आप वितरण की तुलना उनके साधनों की तुलना करके कर सकते हैं। या, आप उनके साधनों के कुछ परिवर्तन की तुलना करके वितरण की तुलना कर सकते हैं; या उनके साधनों और प्रकारों की तुलना करके; या आरकेएचएस में एक सहित किसी अन्य फीचर मैप के माध्य की तुलना करके।
डगल

आपके प्रतिक्रिया के लिए धन्येवाद; मैं आरकेएचएस फीचर मैप के बारे में अधिक पढ़ने जा रहा हूं; मैं सोच रहा था, एमएमडी को आरकेएचएस फीचर मैप में दूरी क्यों परिभाषित किया गया है? मेरा मतलब है, एमएमडी दूरी की परिभाषा में आरकेएचएस का क्या लाभ है?
महसा

यहाँ स्पष्टीकरण "मीन डिस्क्रीपेंसी" पर केंद्रित है, "अधिकतम मीन विसंगति" के विपरीत। क्या कोई "मैक्सिमाइजेशन" भाग पर विस्तार से बता सकता है?
जियांग जियांग

5

यहाँ मैंने MMD की व्याख्या कैसे की है। दो वितरण समान हैं यदि उनके क्षण समान हैं। कर्नेल लगाने से, मैं चर को बदल सकता हूं जैसे कि सभी क्षण (पहले, दूसरे, तीसरे आदि) की गणना की जाती है। अव्यक्त स्थान में मैं क्षणों के बीच अंतर की गणना कर सकता हूं और इसे औसत कर सकता हूं। यह डेटासेट के बीच समानता / असमानता का माप देता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.