यह MMD के अवलोकन को थोड़ा और देने में मदद कर सकता है।
सामान्य तौर पर, MMD को वितरण के बीच दूरियों का प्रतिनिधित्व करने के विचार के रूप में परिभाषित किया जाता है ताकि सुविधाओं की औसत एम्बेडिंग के बीच दूरी हो । यह कहना है कि हमारे पास और एक सेट पर वितरण है । MMD को एक फीचर मैप से परिभाषित किया जाता है , जहां को एक प्रजनन कर्नेल हिल्बर्ट स्पेस कहा जाता है। सामान्य तौर पर, MMD
PQX φ:X→HHMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H.
एक उदाहरण के रूप में, हमारे पास और । उस स्थिति में:
ताकि यह MMD केवल दो वितरणों के साधनों के बीच की दूरी हो। इस तरह से मिलान वितरण उनके साधनों से मेल खाएगा, हालांकि वे अपने विचरण या अन्य तरीकों से भिन्न हो सकते हैं।X=H=Rdφ(x)=xMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[X]−EY∼Q[Y]∥Rd=∥μP−μQ∥Rd,
आपका मामला थोड़ा अलग है: हमारे पास और , जिसमें , जहां एक मैट्रिक्स है। इसलिए हमारे पास
यह MMD माध्य के दो अलग-अलग अनुमानों के बीच का अंतर है। यदि या मानचित्रण अन्यथा अक्षम नहीं है,X=RdH=Rpφ(x)=A′xAd×pMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[A′X]−EY∼Q[A′Y]∥Rp=∥A′EX∼P[X]−A′EY∼Q[Y]∥Rp=∥A′(μP−μQ)∥Rp.
p<dA′ पिछले एक की तुलना में: यह पिछले वितरण के कुछ वितरणों के बीच अंतर नहीं करता है।
आप मजबूत दूरी भी बना सकते हैं। उदाहरण के लिए, यदि और आप , तो MMD , और न केवल विभिन्न साधनों के साथ बल्कि विभिन्न भिन्नताओं के साथ वितरण को भी भेद कर सकते हैं।X=Rφ(x)=(x,x2)(EX−EY)2+(EX2−EY2)2−−−−−−−−−−−−−−−−−−−−−−−−−√
और आप इससे बहुत अधिक मजबूत हो सकते हैं: यदि मैप्स सामान्य पुन: उत्पन्न करने वाली कर्नेल हिल्बर्ट स्थान पर हैं, तो आप MMD की गणना करने के लिए कर्नेल ट्रिक लागू कर सकते हैं , और यह पता चलता है कि गाउन्स कर्नेल सहित कई कर्नेल, MMD को जन्म देते हैं। यदि शून्य और केवल वितरण समान हैं।φ
विशेष रूप से, , आप
जो आप सीधे नमूनों के साथ अनुमान लगा सकते हैं।k(x,y)=⟨φ(x),φ(y)⟩HMMD2(P,Q)=∥EX∼Pφ(X)−EY∼Qφ(Y)∥2H=⟨EX∼Pφ(X),EX′∼Pφ(X′)⟩H+⟨EY∼Qφ(Y),EY′∼Qφ(Y′)⟩H−2⟨EX∼Pφ(X),EY∼Qφ(Y)⟩H=EX,X′∼Pk(X,X′)+EY,Y′∼Qk(Y,Y′)−2EX∼P,Y∼Qk(X,Y)
अद्यतन: यहाँ पर नाम में "अधिकतम" कहाँ से आता है।
फीचर मैप मैप्स में एक प्रजनन कर्नेल हिल्बर्ट स्पेस। ये फ़ंक्शंस के स्थान हैं , और एक प्रमुख संपत्ति को संतुष्ट करते हैं (जिसे प्रजनन संपत्ति कहा जाता है ): लिए किसी भी ।φ:X→H⟨f,φ(x)⟩H=f(x)f∈H
सबसे सरल उदाहरण में, के साथ , हम प्रत्येक देखने समारोह कुछ करने के लिए इसी के रूप में , द्वारा । फिर प्रजनन संपत्ति को चाहिए।X=H=Rdφ(x)=xf∈Hw∈Rdf(x)=w′x⟨f,φ(x)⟩H=⟨w,x⟩Rd
अधिक जटिल सेटिंग्स में, एक गाऊसी कर्नेल की तरह, एक अधिक जटिल कार्य है, लेकिन प्रजनन संपत्ति अभी भी रखती है।f
अब, हम MMD का एक वैकल्पिक लक्षण वर्णन दे सकते हैं:
दूसरी पंक्ति हिल्बर्ट रिक्त स्थान में मानदंडों के बारे में एक सामान्य तथ्य है:MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]−EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]⟩H−⟨f,EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1EX∼P[⟨f,φ(X)⟩H]−EY∼Q[⟨f,φ(Y)⟩H]=supf∈H:∥f∥H≤1EX∼P[f(X)]−EY∼Q[f(Y)].
supf:∥f∥≤1⟨f,g⟩H=∥g∥ द्वारा प्राप्त किया जाता है । चौथा एक तकनीकी स्थिति पर निर्भर करता है जिसे Bochner integrability के रूप में जाना जाता है लेकिन यह सत्य है जैसे कि बंधी हुई गुठली या बंधे समर्थन के साथ वितरण। फिर अंत में हम प्रजनन संपत्ति का उपयोग करते हैं।f=g/∥g∥
यह अधिकतम है परीक्षण कार्यों पर, - यह अंतिम पंक्ति कारण है कि यह "अधिकतम मतलब विसंगति" कहा जाता है है की इकाई गेंद में , दो वितरण के बीच मतलब अंतर की।fH