क्लस्टर समाधान का मूल्यांकन करने के लिए दो गाऊसी मिश्रण के बीच की दूरी

11

मैं अलग-अलग क्लस्टरिंग विधियों की तुलना करने के लिए एक त्वरित सिमुलेशन चला रहा हूं, और वर्तमान में क्लस्टर समाधान का मूल्यांकन करने की कोशिश कर रहा एक रोड़ा मारा।

मैं विभिन्न सत्यापन मेट्रिक्स ( आर में क्लस्टर (कई ) में पाया जाता है ) के बारे में जानता हूं, लेकिन मुझे लगता है कि यदि क्लस्टर की अनुमानित संख्या वास्तव में क्लस्टर की सही संख्या के बराबर है, तो उनका सबसे अच्छा उपयोग किया जाता है। मैं यह मापने की क्षमता बनाए रखना चाहता हूं कि जब कोई मूल क्लस्टर में सही संख्या में क्लस्टर की सही संख्या निर्दिष्ट नहीं करता है तो क्लस्टरिंग समाधान कितना अच्छा प्रदर्शन करता है (यानी, 4 क्लस्टर के लिए सिम्युलेटेड तीन क्लस्टर समाधान मॉडल डेटा कितनी अच्छी तरह से करता है? समाधान)। बस आपकी जानकारी के लिए, समान कोवरियस मैट्रिसेस के पास क्लस्टर का अनुकरण किया जाता है।

मुझे लगा कि गाऊसी के दो मिश्रणों के बीच केएल विचलन लागू करने के लिए उपयोगी होगा, लेकिन कोई भी बंद फार्म समाधान मौजूद नहीं है ( हर्षे और ओल्सन (2007) ) और मोंटे कार्लो सिमुलेशन को लागू करना कम्प्यूटेशनल रूप से महंगा होने लगा है।

क्या कोई अन्य समाधान है जिसे लागू करना आसान हो सकता है (भले ही सिर्फ एक अनुमान हो)?

clustering kullback-leibler gaussian-mixture

— dmartin
स्रोत

दो गाऊसी मिश्रण के बीच L2 की दूरी बंद रूप में उपलब्ध है। यह प्रयोग करें और आप सभी सेट होना चाहिए।

मुझे नहीं पता कि आप इसे कैसे करेंगे, लेकिन यह मेरे लिए एक अच्छे विचार की तरह नहीं है। मिश्रण लें, घटकों को अनुमति दें (पी (एक्स) में कोई बदलाव नहीं) और एल 2 की दूरी कुछ भी हो सकती है। इसके अलावा, L2 की दूरी कोविरियस मैट्रिसेस पर एक अच्छा विचार नहीं है।

— बायरज

आयोजित आउट डेटासेट के बाद की संभावित संभाव्यता। मुझे संदेह है कि आपको कश्मीर पर पादरियों की आवश्यकता होगी।

— अनुमान

पहला लिंक टूटा है

— ttnphns

6

मान लीजिए कि हमारे पास $\mathbb R^d$ : में दो गाऊसी मिश्रण हैं।क्रमशः उनकी घनत्व और कॉल करें , और , द्वारा उनके घटकों , के घनत्वों को निरूपित करें । $\DeclareMathOperator{\N}{\mathcal N} \newcommand{\ud}{\mathrm{d}} \DeclareMathOperator{\E}{\mathbb E} \DeclareMathOperator{\MMD}{\mathrm{MMD}}$

P = \sum_{i = 1}^{n} α_{i} P_{i} = \sum_{i = 1}^{n} α_{i} N (μ_{i}, Σ_{i}) Q = \sum_{j = 1}^{m} β_{j} Q_{j} = \sum_{j = 1}^{m} N (m_{j}, S_{j}) .

$P = \sum_{i=1}^{n} \alpha_i P_i = \sum_{i=1}^n \alpha_i \N(\mu_i, \Sigma_i) \qquad Q = \sum_{j=1}^m \beta_j Q_j = \sum_{j=1}^m \N(m_j, S_j) .$

p (\cdot)

$p(\cdot)$

q (\cdot)

$q(\cdot)$

P_{i}

$P_i$

Q_{j}

$Q_j$

p_{i} (x) = N (x; μ_{i}, Σ_{i})

$p_i(x) = \N(x; \mu_i, \Sigma_i)$

q_{j} (x) = N (x; m_{j}, S_{j})

$q_j(x) = \N(x; m_j, S_j)$

निम्नलिखित दूरी बंद रूप में उपलब्ध हैं:

$L_2$ दूरी, जैसा कि user39665 द्वारा टिप्पणी में सुझाई गई है। यह है: ध्यान दें, जैसा कि मैट्रिक्स कुकबुक की धारा 8.1.8 में उदाहरण के लिए देखा गया है : ताकि यह समय में आसानी से मूल्यांकन किया जा सके ।
$\begin{aligned} L_{2} (P, Q)^{2} & = \int (p (x) - q (x))^{2} d x \\ = \int {(\sum_{i} α_{i} p_{i} (x) - \sum_{j} β_{j} q_{j} (x))}^{2} d x \\ = \sum_{i, i^{'}} α_{i} α_{i^{'}} \int p_{i} (x) p_{i^{'}} (x) d x + \sum_{j, j^{'}} β_{j} β_{j^{'}} \int q_{j} (x) q_{j^{'}} (x) d x \\ - 2 \sum_{i, j} α_{i} β_{j} \int p_{i} (x) q_{j} (x) d x . \end{aligned}$ $\begin{align} L_2(P, Q)^2 &= \int (p(x) - q(x))^2 \,\ud x \\&= \int \left( \sum_{i} \alpha_i p_i(x) - \sum_j \beta_j q_j(x) \right)^2 \ud x \\&= \sum_{i,i'} \alpha_i \alpha_{i'} \int p_i(x) p_{i'}(x) \ud x + \sum_{j,j'} \beta_j \beta_{j'} \int q_j(x) q_{j'}(x) \ud x \\&\qquad - 2 \sum_{i,j} \alpha_i \beta_j \int p_i(x) q_j(x) \ud x .\end{align}$ $\begin{aligned} \int N (x; μ, Σ) N (x; μ^{'}, Σ^{'}) d x & = N (μ; μ^{'}, Σ + Σ^{'}) \end{aligned}$ $\begin{align} \int \N(x; \mu, \Sigma) \N(x; \mu', \Sigma') \,\ud x &= \N(\mu; \mu', \Sigma + \Sigma') \end{align}$ $O(m n)$
गॉसियन आरबीएफ कर्नेल के साथ अधिकतम औसत विसंगति (एमएमडी)। यह एक शांत दूरी है, जो अब तक सांख्यिकी समुदाय के बीच सुपर-सुपरिचित नहीं है, जिसे परिभाषित करने में थोड़ा सा गणित लगता है।

Letting हिल्बर्ट स्पेस को परिभाषित करें। : अनुरूप कर्नेल हिल्बर्ट स्थान ।
$k (x, y) := \exp (- \frac{1}{2 σ^{2}} ‖ x - y ‖^{2}),$ $k(x, y) := \exp\left( - \frac{1}{2 \sigma^2} \lVert x - y \rVert^2 \right),$ $\mathcal{H}$ $k$

रूप में मीन मानचित्र को परिभाषित करें।
$K (P, Q) = E_{X \sim P, Y \sim Q} k (X, Y) = ⟨ E_{X \sim P} φ (X), E_{Y \sim Q} φ (Y) ⟩ .$ $K(P, Q) = \E_{X \sim P, Y \sim Q} k(X, Y) = \langle \E_{X \sim P} \varphi(X), \E_{Y \sim Q} \varphi(Y) \rangle .$

MMD तब
$\begin{aligned} M M D (P, Q) & = ‖ E_{X \sim P} [φ (X)] - E_{Y \sim Q} [φ (Y)] ‖ \\ = \sqrt{K (P, P) + K (Q, Q) - 2 K (P, Q)} \\ = sup_{f : ‖ f ‖_{H} \leq 1} E_{X \sim P} f (X) - E_{Y \sim Q} f (Y) . \end{aligned}$ $\begin{align} \MMD(P, Q) &= \lVert \E_{X \sim P}[\varphi(X)] - \E_{Y \sim Q}[\varphi(Y)] \rVert \\&= \sqrt{K(P, P) + K(Q, Q) - 2 K(P, Q)} \\&= \sup_{f : \lVert f \rVert_{\mathcal H} \le 1} \E_{X \sim P} f(X) - \E_{Y \sim Q} f(Y) .\end{align}$

हमारे मिश्रण और , ध्यान दें कि और इसी तरह और । $P$ $Q$
$K (P, Q) = \sum_{i, j} α_{i} β_{j} K (P_{i}, Q_{j})$ $K(P, Q) = \sum_{i, j} \alpha_i \beta_j K(P_i, Q_j)$ $K(P, P)$

यह पता चला, के लिए के रूप में इसी तरह की चालें का उपयोग कर , कि है $L_2$ $K(\N(\mu, \Sigma), \N(\mu', \Sigma'))$
$(2 π σ^{2})^{d / 2} N (μ; μ^{'}, Σ + Σ^{'} + σ^{2} I) .$ $(2 \pi \sigma^2)^{d/2} \N(\mu; \mu', \Sigma + \Sigma' + \sigma^2 I) .$

जैसा कि , स्पष्ट रूप से यह दूरी के कई में है। आप सामान्य रूप से डेटा भिन्नता के पैमाने पर किसी भिन्न का उपयोग करना चाहते हैं । $\sigma \to 0$ $L_2$ $\sigma$

MMD में बहुपद गुठली लिए बंद रूप भी उपलब्ध हैं ; देख $k$

मुंडेट, फुकुमिजू, डिनज़ुओ, और श्लोकोफ़ (2012)। समर्थन माप मशीनों के माध्यम से वितरण से सीखना। तंत्रिका सूचना प्रसंस्करण प्रणाली ( आधिकारिक संस्करण ) में अग्रिमों में । arXiv: 1202.6504 ।

इस दूरी के कई अच्छे गुणों के लिए, देखें

श्रीपेरुम्बुदूर, ग्रेटन, फुकुमिजू, श्लोकोफ़, और लंक्रीत (2010)। हिल्बर्ट स्पेस एंबेडिंग और मेट्रिक्स प्रायिकता उपायों पर। मशीन लर्निंग रिसर्च जर्नल, 11, 1517-1561 । arXiv: 0907.5309 ।
द्विघात जेन्सेन-रेनी विचलन। Rényi- Alpha एंट्रॉपी को रूप में परिभाषित किया गया है शैनोन एन्ट्रापी के रूप में तक इसकी सीमा है। जेन्सेन-रेनी विचलन जहाँ और बीच एक समान मिश्रण को दर्शाता है । यह पता चला है कि, जब और जब और गौसियन मिश्रण (यहां के रूप में) हैं, तो आप लिए एक बंद फॉर्म की गणना कर सकते हैं । इसके द्वारा किया गया था $\alpha$
$H_{α} (p) = \frac{1}{1 - α} \log (\int p (x)^{α} d x) .$ $H_\alpha(p) = \frac{1}{1-\alpha} \log\left( \int p(x)^\alpha \,\ud x \right) .$ $\alpha \to 1$ ${J R}_{α} (p, q) = H_{α} (\frac{p + q}{2}) - \frac{H_{α} (p) + H_{α} (q)}{2}$ $\mathrm{JR}_\alpha(p, q) = H_\alpha\left( \frac{p + q}{2} \right) - \frac{H_\alpha(p) + H_\alpha(q)}{2}$ $\frac{p + q}{2}$ $p$ $q$ $\alpha = 2$ $P$ $Q$ $\mathrm{JR}_2$

वांग, सैयदा-महमूद, वेमुरी, बेमर और रंगराजन (2009)। समूह-वार आकार पंजीकरण के लिए गाऊसी और अनुप्रयोगों के मिश्रण के लिए बंद-फॉर्म जेनसेन-रेनी डाइवर्जेंस। मेड इमेज कंपुट कंपट असिस्ट इंटरव।, 12 (1), 648-655। ( मुक्त यौवन संस्करण )

— Dougal
स्रोत

0

यदि आपके क्लस्टर वास्तव में गाऊसी मिश्रण नहीं हैं , लेकिन मनमाने ढंग से आकार लेते हैं, तो आपके परिणाम वास्तव में बहुत बेहतर हो सकते हैं जब आप बहुत अधिक क्लस्टर बनाते हैं, तो बाद में कुछ फिर से विलय करें।

कई मामलों में, एक बस मनमाने ढंग से उच्च होने के लिए कश्मीर चुनता है, जैसे कि एक बड़े डेटा सेट के लिए 1000; विशेष रूप से जब आप वास्तव में मॉडल में रुचि नहीं रखते हैं, लेकिन सिर्फ वेक्टर परिमाणीकरण के माध्यम से निर्धारित डेटा की जटिलता को कम करना चाहते हैं।

— QUIT है - एनीनी-मूस
स्रोत

मैंने एक गाऊसी मिश्रण से तैयार किए गए समूहों को अनुकरण किया, इसलिए मुझे लगता है कि मेरी धारणा वैध है। यहाँ लक्ष्य जटिलता को कम करना या कश्मीर को चुनने के लिए निर्णय की कसौटी पर खरा उतरना नहीं है, बल्कि यह तुलना करना है कि k वास्तव में गलत होने पर डेटा को कितनी अच्छी तरह से क्लस्टर करता है। कुछ गलत विकल्प डेटा को दूसरों की तुलना में बेहतर बना सकते हैं, और मैं कुछ गणना के साथ मिसफिट की इस डिग्री की मात्रा निर्धारित करने की कोशिश कर रहा हूं (जैसे केएल विचलन, लेकिन गाऊसी मिश्रण के लिए लागू करना आसान)।

— dmartin

0

यहाँ फिशर कर्नेल विधि और अन्य तकनीकों का उपयोग करते हुए महालनोबिस डी से जीएमएम तक सामान्यीकरण किया गया है:

टिपिंग, माइकल ई। "गाऊसियन मिश्रण मॉडल से क्लस्टर एनेलिक दूरी कार्य करता है।" (1999): 815-820। https://pdfs.semanticscholar.org/08d2/0f55442aeb79edfaaaafa7ad54c513ee1dcb.pdf

यह भी देखें: क्या महालनोबिस दूरी का एक बहु-गाऊसी संस्करण है?

— लेनर होयट
स्रोत