प्रश्न: एक डिरिचलेट प्रक्रिया का उपयोग करके डेटा को क्लस्टर करने का मानक तरीका क्या है?
गिब्स के नमूने का उपयोग करते समय नमूने दिखाई देते हैं और नमूने के दौरान गायब हो जाते हैं। इसके अलावा, हमारे पास पहचान की समस्या है क्योंकि पीछे वितरण क्लस्टर क्लस्टरिंग के लिए अपरिवर्तनीय है। इस प्रकार, हम यह नहीं कह सकते हैं कि कौन सा उपयोगकर्ता का क्लस्टर है, बल्कि यह है कि दो उपयोगकर्ता एक ही क्लस्टर में हैं (यानी )।
हम चाहते हैं कि इतना वर्ग कार्य संक्षेप में प्रस्तुत कर सकते हैं, अगर बिंदु के क्लस्टर काम है , अब हम न केवल कि लेकिन यह है कि ?
ये मेरे द्वारा खोजे गए विकल्प हैं और क्यों मुझे लगता है कि वे अधूरे या गुमराह हैं।
(1) डीपी-जीएमएम + गिब्स नमूना + जोड़े-आधारित भ्रम मैट्रिक्स
एक क्लस्टरिंग के लिए एक डिरिचलेट प्रोसेस गॉसियन मिक्सचर मॉडल (डीपी-जीएमएम) का उपयोग करने के लिए मैंने इस पेपर को लागू किया जहां लेखक गिब्स नमूने का उपयोग करके घनत्व के आकलन के लिए डीपी-जीएमएम का प्रस्ताव करते हैं।
क्लस्टरिंग प्रदर्शन का पता लगाने के लिए, वे कहते हैं:
चूंकि [MCMC] श्रृंखला में घटकों की संख्या में परिवर्तन होता है, किसी को एक भ्रम मैट्रिक्स बनाने की आवश्यकता होगी, जिसमें प्रत्येक डेटा जोड़ी की आवृत्ति को पूरी श्रृंखला के लिए एक ही घटक को सौंपा गया हो, चित्र 6 देखें।
विपक्ष : यह एक वास्तविक "पूर्ण" क्लस्टरिंग नहीं है, लेकिन एक जोड़ी-वार क्लस्टरिंग है। यह आंकड़ा अच्छा लग रहा है क्योंकि हम वास्तविक समूहों को जानते हैं और तदनुसार मैट्रिक्स की व्यवस्था करते हैं।
(2) DP-GMM + गिब्स नमूना + नमूना जब तक कुछ भी नहीं बदलता है
मैं खोज रहा हूं और मैंने कुछ लोगों को गिब्स नमूना का उपयोग करके डिरिचलेट प्रक्रिया के आधार पर क्लस्टरिंग करने का दावा किया। मसलन, यह पोस्ट मानता है कि श्रृंखला तब परिवर्तित होती है जब क्लस्टर या साधनों की संख्या में और अधिक परिवर्तन नहीं होते हैं, और इसलिए वहां से सारांश प्राप्त होता है।
विपक्ष : मुझे यकीन नहीं है कि यह अनुमति दी गई है, अगर मैं गलत नहीं हूँ:
(ए) एमसीएमसी के दौरान लेबल स्विचिंग हो सकता है।
(b) स्थिर वितरण में भी नमूना समय-समय पर कुछ क्लस्टर बना सकता है।
(3) DP-GMM + गिब्स नमूना + सबसे अधिक संभावित विभाजन के साथ नमूना चुनें
इस पत्र में , लेखक कहते हैं:
"बर्न-इन" अवधि के बाद, IGMM के पीछे वितरण से निष्पक्ष नमूने गिब्स नमूना से खींचा जा सकता है। इस तरह के कई नमूने खींचकर और क्लास इंडिकेटर चर के उच्चतम संयुक्त संभावना के साथ नमूने का उपयोग करके एक कठिन क्लस्टरिंग पाया जा सकता है। हम एम। मंडल द्वारा लिखित संशोधित IGMM कार्यान्वयन का उपयोग करते हैं ।
विपक्ष : जब तक इस की संक्षिप्त गिब्स नमूना है, जहां हम केवल कार्य नमूना है, हम गणना कर सकता है लेकिन नहीं सीमांत पी ( ग ) । (चाहेंगे यह एक अच्छा अभ्यास के बजाय होना उच्चतम साथ राज्य पाने के लिए पी ( सी , θ ) ?)
(4) डीपी-जीएमएम के साथ वैरिएटोनल इंजेक्शन :
मैंने देखा है कि कुछ लाइब्रेरी वैरिएबल इंट्रेंस का उपयोग करती हैं। मुझे वैरिएशन के बारे में पता नहीं है लेकिन मुझे लगता है कि आपके पास पहचान की समस्या नहीं है। हालाँकि, मैं MCMC विधियों (यदि संभव हो) से चिपके रहना चाहूँगा।
कोई भी संदर्भ मददगार होगा।