गैर-आयामी डेटा के लिए क्लस्टरिंग एल्गोरिथ्म

12

मेरे पास हजारों बिंदुओं का डेटासेट है और किसी भी दो बिंदुओं के बीच की दूरी को मापने का एक साधन है, लेकिन डेटा बिंदुओं में कोई आयाम नहीं है। मैं इस डाटासेट में क्लस्टर केंद्रों को खोजने के लिए एक एल्गोरिथ्म चाहता हूं। मुझे लगता है कि क्योंकि डेटा में कोई आयाम नहीं है, एक क्लस्टर केंद्र में कई डेटा बिंदु और एक सहिष्णुता हो सकती है, और क्लस्टर के भीतर सदस्यता क्लस्टर केंद्र में प्रत्येक डेटा बिंदु के डेटा बिंदु की दूरी के औसत से निर्धारित की जा सकती है।

कृपया मुझे माफ़ करें यदि इस प्रश्न का एक जाना-माना समाधान है, तो मुझे इस तरह की समस्या के बारे में बहुत कम जानकारी है! मेरे (बहुत सीमित) शोध ने केवल आयामी डेटा के लिए क्लस्टरिंग एल्गोरिदम को बदल दिया है, लेकिन अगर मैंने कुछ स्पष्ट याद किया है तो मैं पहले से माफी मांगता हूं।

धन्यवाद!

machine-learning lg.learning clustering

— पेंट का बर्तन
स्रोत

गैर-आयामीता इस समस्या को विशेष क्यों बनाती है?

— राफेल

1

कुछ एल्गोरिदम जिन्हें मैंने क्लस्टरिंग के लिए देखा (वास्तव में सिर्फ k- साधन) को बीज के रूप में यादृच्छिक डेटा बिंदुओं की आवश्यकता होती है, जो आयाम डेटा के साथ संभव नहीं है। तो, विशेष आवश्यकता यह है कि क्लस्टर केंद्रों को मौजूदा डेटा बिंदुओं (शायद भारित) के एक समूह द्वारा प्रस्तुत किया जाना चाहिए।

— पेंटन

15

सुदूर क्रिया एक मीट्रिक है, तो आप या तो उपयोग कर सकते हैं क्लस्टरिंग -center (जहां एक गेंद की अधिकतम त्रिज्या कम से कम है) या -median क्लस्टरिंग (जो क्लस्टर केन्द्रों के लिए दूरी की राशि को कम करता है)। -center क्लस्टरिंग आसान है: केवल -farthest अंक चुनें, और आपको त्रिकोण असमानता के माध्यम से 2-सन्निकटन प्राप्त करने की गारंटी है (यह गोंजालेज के कारण एक पुराना परिणाम है)। $k$ $k$ $k$ $k$

के लिए -median क्लस्टरिंग कार्य करने की प्रक्रिया एक टन, बहुत ज्यादा यहाँ की समीक्षा करने के हो गया है। यूसीएलए में माइकल शिंडलर के पास मुख्य विचारों का एक अच्छा सर्वेक्षण है। $k$

ये दोनों समस्याएं सामान्य रूप से एनपी-हार्ड हैं, और एक मनमाना कारक के भीतर अनुमानित रूप से कठिन हैं। ध्यान दें कि यदि आप मीट्रिक होने की स्थिति को छोड़ देते हैं, तो अनुमानितता के मामले में चीजें बहुत खराब हो जाती हैं।

एक अन्य, अधिक अनुमानी दृष्टिकोण है जो आपके आवेदन के लिए ठीक हो सकता है एक इयूक्लिडियन स्थान में एमडीएस (बहुआयामी स्केलिंग) अपनी दूरी मैट्रिक्स एम्बेड करने के लिए की तरह एक तकनीक का उपयोग करने के लिए, और उसके बाद कई अलग अलग इयूक्लिडियन क्लस्टरिंग तरीकों में से एक (या है भी -means क्लस्टरिंग )। यदि आप सुनिश्चित हैं कि आपकी दूरी फ़ंक्शन एक मीट्रिक है, तो आप यूक्लिडियन अंतरिक्ष में थोड़ा अधिक बुद्धिमान एम्बेडिंग कर सकते हैं और अपने जवाब की गुणवत्ता पर एक साबित (यद्यपि कमजोर) गारंटी प्राप्त कर सकते हैं। $k$

अंत में, अधिकांश क्लस्टरिंग समस्याओं के साथ, आपकी अंतिम पसंद एप्लिकेशन, आपके डेटा आकार और इसी तरह निर्भर करती है।

— सुरेश वेंकट
स्रोत

3

त्वरित और स्पष्ट अवलोकन के लिए धन्यवाद। यदि आपने मेरे प्रश्न का उत्तर दिया है तो मुझे यह निर्धारित करने में कम से कम कुछ दिन लगेंगे। ऐसा लगता है कि मुझे अपनी समस्या को पर्याप्त रूप से समझने से पहले सीखने के लिए बहुत कुछ है :)

— चित्रांक

5

वहाँ भी सहसंबंध क्लस्टरिंग है , जो प्रत्येक जोड़ी के लिए इनपुट जानकारी के रूप में इंगित करता है कि क्या वे एक ही क्लस्टर या अन्य क्लस्टर में हैं।

— वारेन शूडी
स्रोत

हाँ, यह एक और अच्छा उदाहरण है। और निश्चित रूप से वॉरेन इस पर एक विशेषज्ञ है! मुझे नहीं पता कि ओपी का इनपुट +/- था, या थ्रेसहोल्ड के माध्यम से परिवर्तित किया जा सकता है। यदि हां, तो यह निश्चित रूप से एक व्यवहार्य विकल्प है।

— सुरेश वेंकट

5

यदि आप सिर्फ अच्छे अनुभवजन्य प्रदर्शन की तलाश कर रहे हैं, तो आत्मीयता का प्रचार एल्गोरिथ्म आमतौर पर के-मेडियंस से बेहतर काम करता है। एल्गोरिथ्म का वर्णन करने वाली कई भाषाओं और प्रकाशनों में कोड उपलब्ध है यहां अधिक विवरण हैं: http://www.psi.toronto.edu/index.php?q=affinity%20propagation

उद्देश्य है कि यह अधिकतम करने के लिए कोशिश करता है:

\underset{मैं}{Σ} रों (मैं, {सी}_{मैं})

$\sum_{i} s(i, c_i)$

जहां एक समानता उपाय अंक (जैसे, नकारात्मक दूरी) के जोड़ों के बीच में परिभाषित किया गया है, और है क्लस्टर कि देता है के अंतर्गत आता है। में दिया गया एक अतिरिक्त पैरामीटर है जो यह नियंत्रित करता है कि आप बड़े या छोटे क्लस्टर पसंद करते हैं। $s$ $c_i \in \mathbf{c}$ $i$ $s(i, i)$

— dan_x
स्रोत

5

आपके प्रश्न का अर्थ है कि आप एक कम्प्यूटेशनल समय के साथ एल्गोरिथ्म की तलाश कर रहे हैं। आपके शीर्षकों (या बिंदुओं) के आकार को देखते हुए अपने डेटा का भारित ग्राफ प्रतिनिधित्व बनाना और ग्राफ को क्लस्टर करने के लिए मार्कोव क्लस्टर एल्गोरिथ्म (एमसीएल) का उपयोग करना होगा।

http://www.micans.org/mcl/

MCL घने उपसमूह को खोजने के लिए भारित और बिना वजन वाले रेखांकन के माध्यम से यादृच्छिक चलता है। यह बड़े रेखांकन को संभालने में सक्षम है और कई प्रसिद्ध, अच्छी तरह से उपयोग किए जाने वाले जैव सूचनात्मक कार्यक्रमों (जैसे BLAST) में उपयोग किया गया है। -Boucher

— क्रिस्टीना बाउचर
स्रोत

1

K- निकटतम पड़ोसी एल्गोरिथम पर विचार करें ।

— राफेल
स्रोत

राफेल, k-NN एल्गोरिथ्म वास्तव में एक क्लस्टरिंग एल्गोरिथ्म नहीं है, है? जब तक आप बार-बार एक नोड के पड़ोसियों को बाहर नहीं निकालते हैं?

— सुरेश वेंकट

k

$k$