क्या कोई गैर-दूरी आधारित क्लस्टरिंग एल्गोरिदम हैं?


14

ऐसा लगता है कि K- साधन और अन्य संबंधित एल्गोरिदम के लिए, क्लस्टरिंग बिंदुओं के बीच की दूरी की गणना करने पर आधारित है। क्या कोई ऐसा है जो इसके बिना काम करता है?


2
बिना किसी समानता या बिंदुओं के "निकटता" को निर्धारित किए बिना "क्लस्टरिंग" से क्या मतलब होगा?
whuber

2
@ नीचे टिम का जवाब बहुत अच्छा है। आप विचार कर सकते हैं upvoting और / या स्वीकार करने में यह है, अगर यह आप में मदद मिली है; यह 'धन्यवाद' कहने का एक अच्छा तरीका है। उनके विचार का विस्तार, अव्यक्त वर्ग विश्लेषण है , जो स्पष्ट डेटा के लिए एक समान दृष्टिकोण लागू करता है। FMMs के लिए एक गैर-पैरामीट्रिक दृष्टिकोण का उपयोग बहुभिन्नरूपी कर्नेल घनत्व अनुमान की ऊंचाइयों के माध्यम से किया जा सकता है। Nonparametric घनत्व अनुमान के माध्यम से क्लस्टरिंग देखें : अधिक के लिए आर पैकेज pdfCluster ( पीडीएफ )।
गूँग - मोनिका

जवाबों:


25

इस तरह की एक विधि का एक उदाहरण परिमित मिश्रण मॉडल (जैसे यहां या यहां ) क्लस्टरिंग के लिए उपयोग किया जाता है। FMM में आप अपने चर के वितरण ( ) को वितरण ( ) के मिश्रण के रूप में :fXKf1,...,fk

f(x,ϑ)=k=1Kπkfk(x,ϑk)

जहाँ मापदंडों का एक सदिश है और मिश्रण में ' th वितरण का एक अनुपात है और एक पैरामीटर () है या वितरण के पैरामीटर) ।ϑϑ=(π,ϑ1,...,ϑk)πkkϑkfk

असतत डेटा के लिए एक विशिष्ट मामला है अव्यक्त वर्ग विश्लेषण (जैसे यहाँ ) को इस प्रकार परिभाषित किया गया है:

P(x,k)=P(k)P(x|k)

जहाँ अव्यक्त वर्ग (यानी ) के अवलोकन की संभावना है , मान के अवलोकन की संभावना है और संभावना कक्षा ।कश्मीर π कश्मीर पी ( एक्स ) एक्स पी ( एक्स | कश्मीर ) एक्स कश्मीरP(k)kπkP(x)xP(x|k)xk

आमतौर पर एफएमएम और एलसीए ईएम एल्गोरिथ्म दोनों का उपयोग अनुमान के लिए किया जाता है, लेकिन बायेसियन दृष्टिकोण भी संभव है, लेकिन मॉडल पहचान और लेबल स्विचिंग (जैसे शीआन के ब्लॉग ) जैसी समस्याओं के कारण थोड़ा अधिक मांग है ।

इसलिए आपके डेटा की संरचना (वितरण) को परिभाषित करने के लिए कोई माप उपाय नहीं है, बल्कि एक सांख्यिकीय मॉडल है। इस वजह से इस पद्धति का अन्य नाम "मॉडल-आधारित क्लस्टरिंग" है।

FMM पर दो पुस्तकों की जाँच करें:

एफएमएम का उपयोग करने वाले सबसे लोकप्रिय क्लस्टरिंग पैकेजों में से एक है mclust( यहां या यहां देखें ) जो कि आर में लागू है । हालांकि, अधिक जटिल एफएमएम भी संभव है, उदाहरण के flexmixपैकेज की जांच करें और यह प्रलेखन है । LCA के लिए R RLCA पैकेज है


क्या आपको इस बात की अच्छी जानकारी है कि विभिन्न उपयोग के मामले क्या हो सकते हैं?
छायाकार

के रूप में, "जब मैं इसके बजाय का उपयोग करना चाहिए, कहते हैं, ध्यान के चारों ओर विभाजन?" वैसे भी बहुत अच्छा जवाब
छायाकार

1
@ सीवेमैन ने कहा कि यह सिर्फ एक उल्लेखनीय सम्मेलन है। यह वैक्टर का एक वेक्टर है, बस इतना ही।
टिम

1
@ caveman वहाँ अलग-अलग वितरण हैं जो मिश्रण में हैं, उनमें से प्रत्येक अपने स्वयं के मापदंडों के साथ है (यही कारण है कि हमारे पास मापदंडों के वैक्टर हैं)। 1 , , एफ केk f1,...,fk
टिम

1
@ केवमन सबसे विशिष्ट मामला यह है कि आपके पास जैसे सामान्य वितरण, विभिन्न साधनों और एसडी के साथ। लेकिन वे अलग-अलग हो सकते हैं, क्रैन.प्रो.प्रोजेक्ट . org/web/packages/flexmix/vignettes/… में 3.1 उदाहरण देखें जो मिश्रण को दो अलग प्रतिगमन मॉडल दिखाता है। k
टिम

7

K- साधन "वास्तव में" दूरी आधारित नहीं है। यह विचरण को कम करता है । (लेकिन विचरण यूक्लिडियन दूरियों को बढ़ाया; इसलिए हर बिंदु को यूक्लिडियन दूरी द्वारा निकटतम सेंट्रोइड को सौंपा गया है)।

ग्रिड-आधारित क्लस्टरिंग दृष्टिकोण के बहुत सारे हैं । वे दूरियों की गणना नहीं करते हैं क्योंकि इससे अक्सर द्विघात रनटाइम पैदा होता है। इसके बजाय, वे डेटा को विभाजित करते हैं और इसे ग्रिड कोशिकाओं में एकत्रित करते हैं। लेकिन इस तरह के दृष्टिकोणों के पीछे अंतर्ज्ञान आमतौर पर दूरियों से बहुत निकटता से संबंधित है।

COOLCAT और STUCCO जैसे श्रेणीबद्ध डेटा के लिए कई क्लस्टर एल्गोरिदम हैं । ऐसे डेटा के साथ दूरियां आसान नहीं हैं (एक-हॉट एन्कोडिंग एक हैक है, और विशेष रूप से सार्थक दूरी प्राप्त नहीं करता है)। लेकिन मैं इन एल्गोरिदम का उपयोग कर किसी के बारे में नहीं सुना है ...

रेखांकन के लिए क्लस्टरिंग दृष्टिकोण हैं। लेकिन या तो वे क्लासिक ग्राफ़ की समस्याओं को कम करते हैं जैसे कि क्लिक या निकट-क्लेक फाइंडिंग और ग्राफ़ कलरिंग, या वे दूरी-आधारित क्लस्टरिंग से जुड़े होते हैं (यदि आपके पास भारित ग्राफ़ है)।

DBSCAN जैसे घनत्व-आधारित क्लस्टरिंग का एक अलग नाम है, और यह दूरी को कम करने के आसपास केंद्रित नहीं है; लेकिन "घनत्व" आमतौर पर दूरी के संबंध में निर्दिष्ट होता है, इसलिए तकनीकी रूप से ये एल्गोरिदम या तो दूरी-आधारित या ग्रिड-आधारित हैं।

आपके प्रश्न का अनिवार्य हिस्सा जो आपने छोड़ा है वह आपका डेटा क्या है ?


1
+1: मैं सराहना करता हूं कि आप दिखाते हैं कि कोई भी क्लस्टरिंग एल्गोरिथ्म "दूरी" या "समानता" के कुछ निहित (शायद) सामान्यीकृत अर्थ का उपयोग करता है, और आप ऐसा कई एल्गोरिदम के सर्वेक्षण की पेशकश करते समय करते हैं।
whuber

मुझे लगता है कि "दूरी-आधारित" से उनका मतलब समानता मेट्रिक्स से था, जिसमें विचरण शामिल होगा।
en

1
विचरण एक समानता मीट्रिक क्यों होगा? यह वर्ग यूक्लिडियन दूरी से संबंधित है; लेकिन मनमानी दूरी एस के बराबर नहीं ।
है क्विट -

2

पिछले अच्छे उत्तरों के अलावा, मैं Dirichlet मिश्रण मॉडल और Bayesian- आधारित श्रेणीबद्ध Dirichlet प्रक्रिया मॉडल पर विचार करने का सुझाव दूंगाअधिकतम संख्या में समूहों के निर्धारण के लिए दृष्टिकोणों और विधियों के बजाय व्यापक और सामान्य अवलोकन के लिए , कृपया StackOverflow पर यह उत्कृष्ट उत्तर देखें : /programming//a/15376462/2872891


2

गोम्स एट अल द्वारा एक विशुद्ध रूप से भेदभावपूर्ण दृष्टिकोण "नियमित जानकारी अधिकतमकरण" है । इसमें समानता / दूरी की कोई धारणा शामिल नहीं है।

यह विचार एक मॉडल की तरह लॉजिस्टिक रिग्रेशन का है जो पॉइंट्स को डिब्बे में डालता है। लेकिन प्रशिक्षण के बजाय कक्षा के लेबल के लॉग-संभावना के कुछ प्रकार को अधिकतम करने के लिए, उद्देश्य फ़ंक्शन एक है जो विभिन्न समूहों में अंक डालता है।

मॉडल द्वारा उपयोग किए जाने वाले समूहों की मात्रा को नियंत्रित करने के लिए, हाइपर पैरामीटर द्वारा भारित एक अतिरिक्त नियमितीकरण शब्द का उपयोग किया जाता है। यह वजन से पहले एक गाऊसी के उलटा विचरण के लिए उबलता है।λ

गैर-रैखिक क्लस्टरिंग के लिए कर्नेल विधियों या तंत्रिका नेटवर्क का विस्तार सीधा है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.