ऐसा लगता है कि K- साधन और अन्य संबंधित एल्गोरिदम के लिए, क्लस्टरिंग बिंदुओं के बीच की दूरी की गणना करने पर आधारित है। क्या कोई ऐसा है जो इसके बिना काम करता है?
ऐसा लगता है कि K- साधन और अन्य संबंधित एल्गोरिदम के लिए, क्लस्टरिंग बिंदुओं के बीच की दूरी की गणना करने पर आधारित है। क्या कोई ऐसा है जो इसके बिना काम करता है?
जवाबों:
इस तरह की एक विधि का एक उदाहरण परिमित मिश्रण मॉडल (जैसे यहां या यहां ) क्लस्टरिंग के लिए उपयोग किया जाता है। FMM में आप अपने चर के वितरण ( ) को वितरण ( ) के मिश्रण के रूप में :
जहाँ मापदंडों का एक सदिश है और मिश्रण में ' th वितरण का एक अनुपात है और एक पैरामीटर () है या वितरण के पैरामीटर) ।
असतत डेटा के लिए एक विशिष्ट मामला है अव्यक्त वर्ग विश्लेषण (जैसे यहाँ ) को इस प्रकार परिभाषित किया गया है:
जहाँ अव्यक्त वर्ग (यानी ) के अवलोकन की संभावना है , मान के अवलोकन की संभावना है और संभावना कक्षा ।कश्मीर π कश्मीर पी ( एक्स ) एक्स पी ( एक्स | कश्मीर ) एक्स कश्मीर
आमतौर पर एफएमएम और एलसीए ईएम एल्गोरिथ्म दोनों का उपयोग अनुमान के लिए किया जाता है, लेकिन बायेसियन दृष्टिकोण भी संभव है, लेकिन मॉडल पहचान और लेबल स्विचिंग (जैसे शीआन के ब्लॉग ) जैसी समस्याओं के कारण थोड़ा अधिक मांग है ।
इसलिए आपके डेटा की संरचना (वितरण) को परिभाषित करने के लिए कोई माप उपाय नहीं है, बल्कि एक सांख्यिकीय मॉडल है। इस वजह से इस पद्धति का अन्य नाम "मॉडल-आधारित क्लस्टरिंग" है।
FMM पर दो पुस्तकों की जाँच करें:
एफएमएम का उपयोग करने वाले सबसे लोकप्रिय क्लस्टरिंग पैकेजों में से एक है mclust
( यहां या यहां देखें ) जो कि आर में लागू है । हालांकि, अधिक जटिल एफएमएम भी संभव है, उदाहरण के flexmix
पैकेज की जांच करें और यह प्रलेखन है । LCA के लिए R RLCA पैकेज है ।
K- साधन "वास्तव में" दूरी आधारित नहीं है। यह विचरण को कम करता है । (लेकिन विचरण यूक्लिडियन दूरियों को बढ़ाया; इसलिए हर बिंदु को यूक्लिडियन दूरी द्वारा निकटतम सेंट्रोइड को सौंपा गया है)।
ग्रिड-आधारित क्लस्टरिंग दृष्टिकोण के बहुत सारे हैं । वे दूरियों की गणना नहीं करते हैं क्योंकि इससे अक्सर द्विघात रनटाइम पैदा होता है। इसके बजाय, वे डेटा को विभाजित करते हैं और इसे ग्रिड कोशिकाओं में एकत्रित करते हैं। लेकिन इस तरह के दृष्टिकोणों के पीछे अंतर्ज्ञान आमतौर पर दूरियों से बहुत निकटता से संबंधित है।
COOLCAT और STUCCO जैसे श्रेणीबद्ध डेटा के लिए कई क्लस्टर एल्गोरिदम हैं । ऐसे डेटा के साथ दूरियां आसान नहीं हैं (एक-हॉट एन्कोडिंग एक हैक है, और विशेष रूप से सार्थक दूरी प्राप्त नहीं करता है)। लेकिन मैं इन एल्गोरिदम का उपयोग कर किसी के बारे में नहीं सुना है ...
रेखांकन के लिए क्लस्टरिंग दृष्टिकोण हैं। लेकिन या तो वे क्लासिक ग्राफ़ की समस्याओं को कम करते हैं जैसे कि क्लिक या निकट-क्लेक फाइंडिंग और ग्राफ़ कलरिंग, या वे दूरी-आधारित क्लस्टरिंग से जुड़े होते हैं (यदि आपके पास भारित ग्राफ़ है)।
DBSCAN जैसे घनत्व-आधारित क्लस्टरिंग का एक अलग नाम है, और यह दूरी को कम करने के आसपास केंद्रित नहीं है; लेकिन "घनत्व" आमतौर पर दूरी के संबंध में निर्दिष्ट होता है, इसलिए तकनीकी रूप से ये एल्गोरिदम या तो दूरी-आधारित या ग्रिड-आधारित हैं।
आपके प्रश्न का अनिवार्य हिस्सा जो आपने छोड़ा है वह आपका डेटा क्या है ?
पिछले अच्छे उत्तरों के अलावा, मैं Dirichlet मिश्रण मॉडल और Bayesian- आधारित श्रेणीबद्ध Dirichlet प्रक्रिया मॉडल पर विचार करने का सुझाव दूंगा । अधिकतम संख्या में समूहों के निर्धारण के लिए दृष्टिकोणों और विधियों के बजाय व्यापक और सामान्य अवलोकन के लिए , कृपया StackOverflow पर यह उत्कृष्ट उत्तर देखें : /programming//a/15376462/2872891 ।
गोम्स एट अल द्वारा एक विशुद्ध रूप से भेदभावपूर्ण दृष्टिकोण "नियमित जानकारी अधिकतमकरण" है । इसमें समानता / दूरी की कोई धारणा शामिल नहीं है।
यह विचार एक मॉडल की तरह लॉजिस्टिक रिग्रेशन का है जो पॉइंट्स को डिब्बे में डालता है। लेकिन प्रशिक्षण के बजाय कक्षा के लेबल के लॉग-संभावना के कुछ प्रकार को अधिकतम करने के लिए, उद्देश्य फ़ंक्शन एक है जो विभिन्न समूहों में अंक डालता है।
मॉडल द्वारा उपयोग किए जाने वाले समूहों की मात्रा को नियंत्रित करने के लिए, हाइपर पैरामीटर द्वारा भारित एक अतिरिक्त नियमितीकरण शब्द का उपयोग किया जाता है। यह वजन से पहले एक गाऊसी के उलटा विचरण के लिए उबलता है।
गैर-रैखिक क्लस्टरिंग के लिए कर्नेल विधियों या तंत्रिका नेटवर्क का विस्तार सीधा है।