गैर-आयामी डेटा के लिए क्लस्टरिंग एल्गोरिथ्म


12

मेरे पास हजारों बिंदुओं का डेटासेट है और किसी भी दो बिंदुओं के बीच की दूरी को मापने का एक साधन है, लेकिन डेटा बिंदुओं में कोई आयाम नहीं है। मैं इस डाटासेट में क्लस्टर केंद्रों को खोजने के लिए एक एल्गोरिथ्म चाहता हूं। मुझे लगता है कि क्योंकि डेटा में कोई आयाम नहीं है, एक क्लस्टर केंद्र में कई डेटा बिंदु और एक सहिष्णुता हो सकती है, और क्लस्टर के भीतर सदस्यता क्लस्टर केंद्र में प्रत्येक डेटा बिंदु के डेटा बिंदु की दूरी के औसत से निर्धारित की जा सकती है।

कृपया मुझे माफ़ करें यदि इस प्रश्न का एक जाना-माना समाधान है, तो मुझे इस तरह की समस्या के बारे में बहुत कम जानकारी है! मेरे (बहुत सीमित) शोध ने केवल आयामी डेटा के लिए क्लस्टरिंग एल्गोरिदम को बदल दिया है, लेकिन अगर मैंने कुछ स्पष्ट याद किया है तो मैं पहले से माफी मांगता हूं।

धन्यवाद!


गैर-आयामीता इस समस्या को विशेष क्यों बनाती है?
राफेल

1
कुछ एल्गोरिदम जिन्हें मैंने क्लस्टरिंग के लिए देखा (वास्तव में सिर्फ k- साधन) को बीज के रूप में यादृच्छिक डेटा बिंदुओं की आवश्यकता होती है, जो आयाम डेटा के साथ संभव नहीं है। तो, विशेष आवश्यकता यह है कि क्लस्टर केंद्रों को मौजूदा डेटा बिंदुओं (शायद भारित) के एक समूह द्वारा प्रस्तुत किया जाना चाहिए।
पेंटन

जवाबों:


15

सुदूर क्रिया एक मीट्रिक है, तो आप या तो उपयोग कर सकते हैं क्लस्टरिंग -center (जहां एक गेंद की अधिकतम त्रिज्या कम से कम है) या -median क्लस्टरिंग (जो क्लस्टर केन्द्रों के लिए दूरी की राशि को कम करता है)। -center क्लस्टरिंग आसान है: केवल -farthest अंक चुनें, और आपको त्रिकोण असमानता के माध्यम से 2-सन्निकटन प्राप्त करने की गारंटी है (यह गोंजालेज के कारण एक पुराना परिणाम है)।

के लिए -median क्लस्टरिंग कार्य करने की प्रक्रिया एक टन, बहुत ज्यादा यहाँ की समीक्षा करने के हो गया है। यूसीएलए में माइकल शिंडलर के पास मुख्य विचारों का एक अच्छा सर्वेक्षण है।

ये दोनों समस्याएं सामान्य रूप से एनपी-हार्ड हैं, और एक मनमाना कारक के भीतर अनुमानित रूप से कठिन हैं। ध्यान दें कि यदि आप मीट्रिक होने की स्थिति को छोड़ देते हैं, तो अनुमानितता के मामले में चीजें बहुत खराब हो जाती हैं।

एक अन्य, अधिक अनुमानी दृष्टिकोण है जो आपके आवेदन के लिए ठीक हो सकता है एक इयूक्लिडियन स्थान में एमडीएस (बहुआयामी स्केलिंग) अपनी दूरी मैट्रिक्स एम्बेड करने के लिए की तरह एक तकनीक का उपयोग करने के लिए, और उसके बाद कई अलग अलग इयूक्लिडियन क्लस्टरिंग तरीकों में से एक (या है भी -means क्लस्टरिंग )। यदि आप सुनिश्चित हैं कि आपकी दूरी फ़ंक्शन एक मीट्रिक है, तो आप यूक्लिडियन अंतरिक्ष में थोड़ा अधिक बुद्धिमान एम्बेडिंग कर सकते हैं और अपने जवाब की गुणवत्ता पर एक साबित (यद्यपि कमजोर) गारंटी प्राप्त कर सकते हैं।

अंत में, अधिकांश क्लस्टरिंग समस्याओं के साथ, आपकी अंतिम पसंद एप्लिकेशन, आपके डेटा आकार और इसी तरह निर्भर करती है।


3
त्वरित और स्पष्ट अवलोकन के लिए धन्यवाद। यदि आपने मेरे प्रश्न का उत्तर दिया है तो मुझे यह निर्धारित करने में कम से कम कुछ दिन लगेंगे। ऐसा लगता है कि मुझे अपनी समस्या को पर्याप्त रूप से समझने से पहले सीखने के लिए बहुत कुछ है :)
चित्रांक

5

वहाँ भी सहसंबंध क्लस्टरिंग है , जो प्रत्येक जोड़ी के लिए इनपुट जानकारी के रूप में इंगित करता है कि क्या वे एक ही क्लस्टर या अन्य क्लस्टर में हैं।


हाँ, यह एक और अच्छा उदाहरण है। और निश्चित रूप से वॉरेन इस पर एक विशेषज्ञ है! मुझे नहीं पता कि ओपी का इनपुट +/- था, या थ्रेसहोल्ड के माध्यम से परिवर्तित किया जा सकता है। यदि हां, तो यह निश्चित रूप से एक व्यवहार्य विकल्प है।
सुरेश वेंकट

5

यदि आप सिर्फ अच्छे अनुभवजन्य प्रदर्शन की तलाश कर रहे हैं, तो आत्मीयता का प्रचार एल्गोरिथ्म आमतौर पर के-मेडियंस से बेहतर काम करता है। एल्गोरिथ्म का वर्णन करने वाली कई भाषाओं और प्रकाशनों में कोड उपलब्ध है यहां अधिक विवरण हैं: http://www.psi.toronto.edu/index.php?q=affinity%20propagation

उद्देश्य है कि यह अधिकतम करने के लिए कोशिश करता है:

Σमैंरों(मैं,सीमैं)

जहां एक समानता उपाय अंक (जैसे, नकारात्मक दूरी) के जोड़ों के बीच में परिभाषित किया गया है, और है मैंसी क्लस्टर कि देता है मैं के अंतर्गत आता है। S ( i , i ) में दिया गया एक अतिरिक्त पैरामीटर है जो यह नियंत्रित करता है कि आप बड़े या छोटे क्लस्टर पसंद करते हैं।रोंसीमैंसीमैंरों(मैं,मैं)


5

आपके प्रश्न का अर्थ है कि आप एक कम्प्यूटेशनल समय के साथ एल्गोरिथ्म की तलाश कर रहे हैं। आपके शीर्षकों (या बिंदुओं) के आकार को देखते हुए अपने डेटा का भारित ग्राफ प्रतिनिधित्व बनाना और ग्राफ को क्लस्टर करने के लिए मार्कोव क्लस्टर एल्गोरिथ्म (एमसीएल) का उपयोग करना होगा।

http://www.micans.org/mcl/

MCL घने उपसमूह को खोजने के लिए भारित और बिना वजन वाले रेखांकन के माध्यम से यादृच्छिक चलता है। यह बड़े रेखांकन को संभालने में सक्षम है और कई प्रसिद्ध, अच्छी तरह से उपयोग किए जाने वाले जैव सूचनात्मक कार्यक्रमों (जैसे BLAST) में उपयोग किया गया है। -Boucher


1

राफेल, k-NN एल्गोरिथ्म वास्तव में एक क्लस्टरिंग एल्गोरिथ्म नहीं है, है? जब तक आप बार-बार एक नोड के पड़ोसियों को बाहर नहीं निकालते हैं?
सुरेश वेंकट

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.