क्लस्टरिंग के लिए डिरिचलेट प्रक्रियाएं: लेबल से कैसे निपटें?


14

प्रश्न: एक डिरिचलेट प्रक्रिया का उपयोग करके डेटा को क्लस्टर करने का मानक तरीका क्या है?

गिब्स के नमूने का उपयोग करते समय नमूने दिखाई देते हैं और नमूने के दौरान गायब हो जाते हैं। इसके अलावा, हमारे पास पहचान की समस्या है क्योंकि पीछे वितरण क्लस्टर क्लस्टरिंग के लिए अपरिवर्तनीय है। इस प्रकार, हम यह नहीं कह सकते हैं कि कौन सा उपयोगकर्ता का क्लस्टर है, बल्कि यह है कि दो उपयोगकर्ता एक ही क्लस्टर में हैं (यानी p(ci=cj) )।

हम चाहते हैं कि इतना वर्ग कार्य संक्षेप में प्रस्तुत कर सकते हैं, अगर ci बिंदु के क्लस्टर काम है i , अब हम न केवल कि ci=cj लेकिन यह है कि ci=cj=cj=...=cz ?

ये मेरे द्वारा खोजे गए विकल्प हैं और क्यों मुझे लगता है कि वे अधूरे या गुमराह हैं।

(1) डीपी-जीएमएम + गिब्स नमूना + जोड़े-आधारित भ्रम मैट्रिक्स

एक क्लस्टरिंग के लिए एक डिरिचलेट प्रोसेस गॉसियन मिक्सचर मॉडल (डीपी-जीएमएम) का उपयोग करने के लिए मैंने इस पेपर को लागू किया जहां लेखक गिब्स नमूने का उपयोग करके घनत्व के आकलन के लिए डीपी-जीएमएम का प्रस्ताव करते हैं।

क्लस्टरिंग प्रदर्शन का पता लगाने के लिए, वे कहते हैं:

चूंकि [MCMC] श्रृंखला में घटकों की संख्या में परिवर्तन होता है, किसी को एक भ्रम मैट्रिक्स बनाने की आवश्यकता होगी, जिसमें प्रत्येक डेटा जोड़ी की आवृत्ति को पूरी श्रृंखला के लिए एक ही घटक को सौंपा गया हो, चित्र 6 देखें। यहाँ छवि विवरण दर्ज करें

विपक्ष : यह एक वास्तविक "पूर्ण" क्लस्टरिंग नहीं है, लेकिन एक जोड़ी-वार क्लस्टरिंग है। यह आंकड़ा अच्छा लग रहा है क्योंकि हम वास्तविक समूहों को जानते हैं और तदनुसार मैट्रिक्स की व्यवस्था करते हैं।

(2) DP-GMM + गिब्स नमूना + नमूना जब तक कुछ भी नहीं बदलता है

मैं खोज रहा हूं और मैंने कुछ लोगों को गिब्स नमूना का उपयोग करके डिरिचलेट प्रक्रिया के आधार पर क्लस्टरिंग करने का दावा किया। मसलन, यह पोस्ट मानता है कि श्रृंखला तब परिवर्तित होती है जब क्लस्टर या साधनों की संख्या में और अधिक परिवर्तन नहीं होते हैं, और इसलिए वहां से सारांश प्राप्त होता है।

विपक्ष : मुझे यकीन नहीं है कि यह अनुमति दी गई है, अगर मैं गलत नहीं हूँ:

  • (ए) एमसीएमसी के दौरान लेबल स्विचिंग हो सकता है।

  • (b) स्थिर वितरण में भी नमूना समय-समय पर कुछ क्लस्टर बना सकता है।

(3) DP-GMM + गिब्स नमूना + सबसे अधिक संभावित विभाजन के साथ नमूना चुनें

इस पत्र में , लेखक कहते हैं:

"बर्न-इन" अवधि के बाद, IGMM के पीछे वितरण से निष्पक्ष नमूने गिब्स नमूना से खींचा जा सकता है। इस तरह के कई नमूने खींचकर और क्लास इंडिकेटर चर के उच्चतम संयुक्त संभावना के साथ नमूने का उपयोग करके एक कठिन क्लस्टरिंग पाया जा सकता है। हम एम। मंडल द्वारा लिखित संशोधित IGMM कार्यान्वयन का उपयोग करते हैं ।

विपक्ष : जब तक इस की संक्षिप्त गिब्स नमूना है, जहां हम केवल कार्य नमूना है, हम गणना कर सकता है लेकिन नहीं सीमांत पी ( ) । (चाहेंगे यह एक अच्छा अभ्यास के बजाय होना उच्चतम साथ राज्य पाने के लिए पी ( सी , θ ) ?)p(c|θ)p(c)p(c,θ)

(4) डीपी-जीएमएम के साथ वैरिएटोनल इंजेक्शन :

मैंने देखा है कि कुछ लाइब्रेरी वैरिएबल इंट्रेंस का उपयोग करती हैं। मुझे वैरिएशन के बारे में पता नहीं है लेकिन मुझे लगता है कि आपके पास पहचान की समस्या नहीं है। हालाँकि, मैं MCMC विधियों (यदि संभव हो) से चिपके रहना चाहूँगा।

कोई भी संदर्भ मददगार होगा।


p(c)

p(c)

यह डिजाइन द्वारा है । वास्तव में, यह एमसीएमसी से आगे निकल जाता है: यह किसी भी बायेशियन मॉडल की अंतर्निहित सुविधा है। यदि कुछ भी हो, तो आप एक समस्या का सामना कर रहे हैं क्योंकि आप कुछ अप्राकृतिक, कुछ ऐसा करने की कोशिश कर रहे हैं, जिसे हम करने के लिए जुनूनी हैं: एक वितरण अनुमान को एक बिंदु अनुमान में
ढंकना

पहली जगह में ऐसा कुछ नहीं करने के लिए कारण हैं - विभिन्न इंद्रियां हैं जिनमें डिरिक्लेट प्रक्रिया मिश्रण मॉडल लगातार क्लस्टर की संख्या का अनुमान नहीं लगा सकता है (और इसलिए पुनर्प्राप्त करने का अच्छा काम नहीं कर सकता है " सच है "डेटा का क्लस्टरिंग)। इस विषय पर NIPS में हाल ही में एक पेपर था।
लड़का

1
देखें यहाँ । मुझे लगता है कि वे घटकों की संख्या से पहले एक पोइसन लगाने के बजाय प्रस्तावित करते हैं (और इसे लागू करने के लिए किसी प्रकार की रेस्तरां प्रक्रिया को प्राप्त करते हैं), लेकिन मुझे यकीन नहीं है कि यह कागज है जो वे ऐसा करते हैं।
लड़का

जवाबों:


1

cp(c,θ)p(c,θ)p(c|θ) कि एक दूसरे के लिए आनुपातिक है है।

मेरे द्वारा इस उत्तर को "अस्थायी" कहने का कारण यह है कि मुझे यकीन नहीं है कि मान को "पैरामीटर" के रूप में निर्दिष्ट करना सिर्फ शब्दार्थ का विषय है, या यदि एक अधिक तकनीकी / सैद्धांतिक परिभाषा है जो पीएचडी-धारण करने वाले उपयोगकर्ताओं में से एक है यहाँ स्पष्ट करने में सक्षम होगा।


p(c,θ)=p(c|θ)p(θ)p(c)

@alberto फिर, कि इस मॉडल और Bayesian आंकड़ों के साथ सब कुछ करने के लिए कुछ भी नहीं है। यहाँ देखें: groups.google.com/forum/m/#!topic/stan-users/qH-2Mq219gs । और अगर आप कई मोड बारे में चिंतित हैं, यहाँ देखें: groups.google.com/forum/m/#topic/stan-users/RsVo9NUn0yM और यहाँ: stats.stackexchange.com/q/3328/36229
shadowtalker

1

मैं इस विषय पर कुछ संसाधनों को साझा करना चाहता था, उम्मीद है कि उनमें से कुछ इस प्रश्न का उत्तर देने में सहायक हो सकते हैं। ड्यूरिचलेट प्रक्रियाओं (डीपी) पर कई ट्यूटोरियल हैं , कुछ में क्लस्टरिंग के लिए डीपी का उपयोग करना शामिल है । वे "कोमल" से लेकर, इस प्रस्तुति ट्यूटोरियल की तरह, इस प्रस्तुति ट्यूटोरियल की तरह अधिक उन्नत हैं । उत्तरार्द्ध उसी ट्यूटोरियल का एक अद्यतन संस्करण है, जिसे MLSS'07 में Yee Whye Teh द्वारा प्रस्तुत किया गया है। आप उस बातचीत का वीडियो यहां सिंक्रनाइज़ स्लाइड्स के साथ देख सकते हैं । वीडियो के बारे में बोलते हुए, आप टॉम ग्रिफिथ द्वारा स्लाइड्स के साथ एक और दिलचस्प और प्रासंगिक बात देख सकते हैं । कागज-स्वरूपित ट्यूटोरियल के संदर्भ में, यह ट्यूटोरियल एक अच्छा और काफी लोकप्रिय एक है।

अंत में, मैं संबंधित कागजात के एक जोड़े को साझा करना चाहूंगा। पदानुक्रमित डीपी पर यह पत्र महत्वपूर्ण और प्रासंगिक लगता है। रेडफोर्ड नील द्वारा इस पत्र पर भी यही बात लागू होती है । यदि आप विषय मॉडलिंग में रुचि रखते हैं , तो अव्यक्त डिरिचलेट आवंटन (LDA) की संभावना आपके रडार पर भी होनी चाहिए। उस मामले में, यह बहुत हालिया पेपर एक उपन्यास और बहुत बेहतर एलडीए दृष्टिकोण प्रस्तुत करता है। विषय मॉडलिंग डोमेन के संबंध में, मैं डेविड ब्लेली और उनके सहयोगियों द्वारा शोध पत्र पढ़ने की सलाह दूंगा। यह पेपर एक परिचयात्मक है, बाकी आप उसके शोध प्रकाशन पृष्ठ पर पा सकते हैं। मुझे लगता है कि मैंने जिन सामग्रियों की सिफारिश की है, उनमें से कुछ आपके लिए बहुत बुनियादी हो सकती हैं, लेकिन मुझे लगा कि इस विषय पर जो कुछ भी मैंने किया है, उसे शामिल करके मैं आपके लिए जवाब तलाशने के अवसरों को बढ़ाऊंगा


मैं समझता हूं कि आप यहां क्या करने की कोशिश कर रहे हैं, लेकिन यह वास्तव में प्रश्न को संबोधित नहीं करता है।
छायाकार

1
@ssdecontrol: यदि आप समझते हैं कि मैं यहां क्या करने की कोशिश कर रहा हूं (जो उत्तर की खोज में ओपी की मदद कर रहा है और एक या दो सीखने में), तो आपकी टिप्पणी का क्या मतलब है? मैं कभी नहीं दावा किया है कि मेरे जवाब है इस सवाल का जवाब है, लेकिन आशा व्यक्त की है कि यह है उपयोगी है, जो अंततः अप तय करने के लिए ओ पी है। यदि आपके पास बेहतर उत्तर है, तो मुझे यकीन है कि इसे ओपी और समुदाय द्वारा सराहा जाएगा।
४३ पर

1
हाँ, मैं पूरी तरह से समझता हूँ। यही कारण है कि मैं यहाँ पर बहुत कुछ करता हूँ। लेकिन सवाल MCMC परिणामों से क्लस्टर लेबल को चुनने के सही तरीके के बारे में पूछ रहा है और मुझे नहीं लगता कि इस पते पर यह सवाल है।
छायाकार

@AleksandrBlekh मैं ssdecontrol से सहमत हूँ कि यह एक छोटा सा विषय है क्योंकि ओपी "मूल बातें" जानता है और एक विशिष्ट प्रश्न पूछता है।
टिम

1
@AleksandrBlekh मैं आपके पोस्ट की सराहना करता हूं, कम से कम यह डीपी के लिए एक परिचय के लिए एक अच्छा सारांश बनाता है। मुझे मूल बातें पता हैं (मध्यवर्ती स्तर, आइए बताते हैं), लेकिन कम से कम आपके संदर्भों ने मुझे एलडीए में वापस भेज दिया और महसूस किया कि वे इस मुद्दे के बारे में बताते हैं क्योंकि उनके लेबल अक्सर स्विच नहीं करते हैं।
अलबर्टो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.