क्लस्टर समाधान का मूल्यांकन करने के लिए दो गाऊसी मिश्रण के बीच की दूरी


11

मैं अलग-अलग क्लस्टरिंग विधियों की तुलना करने के लिए एक त्वरित सिमुलेशन चला रहा हूं, और वर्तमान में क्लस्टर समाधान का मूल्यांकन करने की कोशिश कर रहा एक रोड़ा मारा।

मैं विभिन्न सत्यापन मेट्रिक्स ( आर में क्लस्टर (कई ) में पाया जाता है ) के बारे में जानता हूं, लेकिन मुझे लगता है कि यदि क्लस्टर की अनुमानित संख्या वास्तव में क्लस्टर की सही संख्या के बराबर है, तो उनका सबसे अच्छा उपयोग किया जाता है। मैं यह मापने की क्षमता बनाए रखना चाहता हूं कि जब कोई मूल क्लस्टर में सही संख्या में क्लस्टर की सही संख्या निर्दिष्ट नहीं करता है तो क्लस्टरिंग समाधान कितना अच्छा प्रदर्शन करता है (यानी, 4 क्लस्टर के लिए सिम्युलेटेड तीन क्लस्टर समाधान मॉडल डेटा कितनी अच्छी तरह से करता है? समाधान)। बस आपकी जानकारी के लिए, समान कोवरियस मैट्रिसेस के पास क्लस्टर का अनुकरण किया जाता है।

मुझे लगा कि गाऊसी के दो मिश्रणों के बीच केएल विचलन लागू करने के लिए उपयोगी होगा, लेकिन कोई भी बंद फार्म समाधान मौजूद नहीं है ( हर्षे और ओल्सन (2007) ) और मोंटे कार्लो सिमुलेशन को लागू करना कम्प्यूटेशनल रूप से महंगा होने लगा है।

क्या कोई अन्य समाधान है जिसे लागू करना आसान हो सकता है (भले ही सिर्फ एक अनुमान हो)?


दो गाऊसी मिश्रण के बीच L2 की दूरी बंद रूप में उपलब्ध है। यह प्रयोग करें और आप सभी सेट होना चाहिए।

मुझे नहीं पता कि आप इसे कैसे करेंगे, लेकिन यह मेरे लिए एक अच्छे विचार की तरह नहीं है। मिश्रण लें, घटकों को अनुमति दें (पी (एक्स) में कोई बदलाव नहीं) और एल 2 की दूरी कुछ भी हो सकती है। इसके अलावा, L2 की दूरी कोविरियस मैट्रिसेस पर एक अच्छा विचार नहीं है।
बायरज

आयोजित आउट डेटासेट के बाद की संभावित संभाव्यता। मुझे संदेह है कि आपको कश्मीर पर पादरियों की आवश्यकता होगी।
अनुमान

पहला लिंक टूटा है
ttnphns

जवाबों:


6

मान लीजिए कि हमारे पास Rd : में दो गाऊसी मिश्रण हैं।क्रमशः उनकी घनत्व और कॉल करें , और , द्वारा उनके घटकों , के घनत्वों को निरूपित करें ।

P=i=1nαiPi=i=1nαiN(μi,Σi)Q=j=1mβjQj=j=1mN(mj,Sj).
p()q()PiQjpi(x)=N(x;μi,Σi)qj(x)=N(x;mj,Sj)

निम्नलिखित दूरी बंद रूप में उपलब्ध हैं:

  • L2 दूरी, जैसा कि user39665 द्वारा टिप्पणी में सुझाई गई है। यह है: ध्यान दें, जैसा कि मैट्रिक्स कुकबुक की धारा 8.1.8 में उदाहरण के लिए देखा गया है : ताकि यह समय में आसानी से मूल्यांकन किया जा सके ।

    L2(P,Q)2=(p(x)q(x))2dx=(iαipi(x)jβjqj(x))2dx=i,iαiαipi(x)pi(x)dx+j,jβjβjqj(x)qj(x)dx2i,jαiβjpi(x)qj(x)dx.
    N(x;μ,Σ)N(x;μ,Σ)dx=N(μ;μ,Σ+Σ)
    O(mn)

  • गॉसियन आरबीएफ कर्नेल के साथ अधिकतम औसत विसंगति (एमएमडी)। यह एक शांत दूरी है, जो अब तक सांख्यिकी समुदाय के बीच सुपर-सुपरिचित नहीं है, जिसे परिभाषित करने में थोड़ा सा गणित लगता है।

    Letting हिल्बर्ट स्पेस को परिभाषित करें। : अनुरूप कर्नेल हिल्बर्ट स्थान ।

    k(x,y):=exp(12σ2xy2),
    Hkk(x,y)=φ(x),φ(y)H

    रूप में मीन मानचित्र को परिभाषित करें।

    K(P,Q)=EXP,YQk(X,Y)=EXPφ(X),EYQφ(Y).

    MMD तब

    MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]=K(P,P)+K(Q,Q)2K(P,Q)=supf:fH1EXPf(X)EYQf(Y).

    हमारे मिश्रण और , ध्यान दें कि और इसी तरह और ।PQ

    K(P,Q)=i,jαiβjK(Pi,Qj)
    K(P,P)K(Q,Q)

    यह पता चला, के लिए के रूप में इसी तरह की चालें का उपयोग कर , कि है L2K(N(μ,Σ),N(μ,Σ))

    (2πσ2)d/2N(μ;μ,Σ+Σ+σ2I).

    जैसा कि , स्पष्ट रूप से यह दूरी के कई में है। आप सामान्य रूप से डेटा भिन्नता के पैमाने पर किसी भिन्न का उपयोग करना चाहते हैं ।σ0L2σ

    MMD में बहुपद गुठली लिए बंद रूप भी उपलब्ध हैं ; देखk

    मुंडेट, फुकुमिजू, डिनज़ुओ, और श्लोकोफ़ (2012)। समर्थन माप मशीनों के माध्यम से वितरण से सीखना। तंत्रिका सूचना प्रसंस्करण प्रणाली ( आधिकारिक संस्करण ) में अग्रिमों में । arXiv: 1202.6504

    इस दूरी के कई अच्छे गुणों के लिए, देखें

    श्रीपेरुम्बुदूर, ग्रेटन, फुकुमिजू, श्लोकोफ़, और लंक्रीत (2010)। हिल्बर्ट स्पेस एंबेडिंग और मेट्रिक्स प्रायिकता उपायों पर। मशीन लर्निंग रिसर्च जर्नल, 11, 1517-1561arXiv: 0907.5309

  • द्विघात जेन्सेन-रेनी विचलन। Rényi- Alpha एंट्रॉपी को रूप में परिभाषित किया गया है शैनोन एन्ट्रापी के रूप में तक इसकी सीमा है। जेन्सेन-रेनी विचलन जहाँ और बीच एक समान मिश्रण को दर्शाता है । यह पता चला है कि, जब और जब और गौसियन मिश्रण (यहां के रूप में) हैं, तो आप लिए एक बंद फॉर्म की गणना कर सकते हैं । इसके द्वारा किया गया थाα

    Hα(p)=11αlog(p(x)αdx).
    α1
    JRα(p,q)=Hα(p+q2)Hα(p)+Hα(q)2
    p+q2pqα=2PQJR2

    वांग, सैयदा-महमूद, वेमुरी, बेमर और रंगराजन (2009)। समूह-वार आकार पंजीकरण के लिए गाऊसी और अनुप्रयोगों के मिश्रण के लिए बंद-फॉर्म जेनसेन-रेनी डाइवर्जेंस। मेड इमेज कंपुट कंपट असिस्ट इंटरव।, 12 (1), 648-655। ( मुक्त यौवन संस्करण )


0

यदि आपके क्लस्टर वास्तव में गाऊसी मिश्रण नहीं हैं , लेकिन मनमाने ढंग से आकार लेते हैं, तो आपके परिणाम वास्तव में बहुत बेहतर हो सकते हैं जब आप बहुत अधिक क्लस्टर बनाते हैं, तो बाद में कुछ फिर से विलय करें।

कई मामलों में, एक बस मनमाने ढंग से उच्च होने के लिए कश्मीर चुनता है, जैसे कि एक बड़े डेटा सेट के लिए 1000; विशेष रूप से जब आप वास्तव में मॉडल में रुचि नहीं रखते हैं, लेकिन सिर्फ वेक्टर परिमाणीकरण के माध्यम से निर्धारित डेटा की जटिलता को कम करना चाहते हैं।


मैंने एक गाऊसी मिश्रण से तैयार किए गए समूहों को अनुकरण किया, इसलिए मुझे लगता है कि मेरी धारणा वैध है। यहाँ लक्ष्य जटिलता को कम करना या कश्मीर को चुनने के लिए निर्णय की कसौटी पर खरा उतरना नहीं है, बल्कि यह तुलना करना है कि k वास्तव में गलत होने पर डेटा को कितनी अच्छी तरह से क्लस्टर करता है। कुछ गलत विकल्प डेटा को दूसरों की तुलना में बेहतर बना सकते हैं, और मैं कुछ गणना के साथ मिसफिट की इस डिग्री की मात्रा निर्धारित करने की कोशिश कर रहा हूं (जैसे केएल विचलन, लेकिन गाऊसी मिश्रण के लिए लागू करना आसान)।
dmartin

0

यहाँ फिशर कर्नेल विधि और अन्य तकनीकों का उपयोग करते हुए महालनोबिस डी से जीएमएम तक सामान्यीकरण किया गया है:

टिपिंग, माइकल ई। "गाऊसियन मिश्रण मॉडल से क्लस्टर एनेलिक दूरी कार्य करता है।" (1999): 815-820। https://pdfs.semanticscholar.org/08d2/0f55442aeb79edfaaaafa7ad54c513ee1dcb.pdf

यह भी देखें: क्या महालनोबिस दूरी का एक बहु-गाऊसी संस्करण है?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.