सबसे पहले एक चेतावनी। क्लस्टरिंग में अक्सर कोई "सही उत्तर" नहीं होता है - एक क्लस्टरिंग एक मीट्रिक से दूसरे की तुलना में बेहतर हो सकती है, और रिवर्स किसी अन्य मीट्रिक का उपयोग करके सच हो सकता है। और कुछ स्थितियों में एक ही मीट्रिक के तहत दो अलग-अलग क्लस्टरिंग समान रूप से संभावित हो सकते हैं।
कहा जा रहा है कि, आप Dirichlet प्रक्रियाओं पर एक नज़र रखना चाहते हो सकता है । इस ट्यूटोरियल को भी देखें ।
यदि आप एक गाऊसी मिश्रण मॉडल के साथ शुरू करते हैं, तो आपको के-साधनों के साथ भी यही समस्या है - कि आपको क्लस्टर की संख्या चुननी है। आप मॉडल प्रमाण का उपयोग कर सकते हैं, लेकिन यह इस मामले में मजबूत नहीं होगा। तो चाल मिश्रण घटकों से पहले एक Dirichlet प्रक्रिया का उपयोग करने के लिए है, जो तब आपको मिश्रण घटकों की एक संभावित अनंत संख्या की अनुमति देता है, लेकिन मॉडल (आमतौर पर) घटकों की "सही" संख्या (मान्यताओं के तहत) को स्वचालित रूप से ढूंढेगा आदर्श)।
ध्यान दें कि आपको अभी भी डिरिचलेट प्रक्रिया के एकाग्रता पैरामीटर को निर्दिष्ट करना होगा । के छोटे मूल्यों के लिए , डीपी से नमूने बड़े वजन के साथ परमाणु उपायों की एक छोटी संख्या से बने होने की संभावना है। बड़े मूल्यों के लिए, अधिकांश नमूने अलग (केंद्रित) होने की संभावना है। आप संकेंद्रण पैरामीटर पर हाइपर-पूर्व का उपयोग कर सकते हैं और फिर डेटा से इसके मूल्य का अनुमान लगा सकते हैं, और इस हाइपर-पूर्व को कई अलग-अलग संभावित मानों की अनुमति देने के लिए उपयुक्त रूप से अस्पष्ट किया जा सकता है। पर्याप्त डेटा को देखते हुए, हालांकि, एकाग्रता पैरामीटर इतना महत्वपूर्ण हो जाएगा, और इस अति-पूर्व को गिरा दिया जा सकता है।ααα