वियोज्य डेटा के लिए K- साधनों के अलावा अन्य औपचारिकताओं को पूरा करना


11

वास्तविक विश्व डेटा में कभी-कभी क्लस्टर की एक प्राकृतिक संख्या होती है (इसे कुछ जादू की तुलना में क्लस्टर क्लस्टर की संख्या में कम करने की कोशिश करने से नाटकीय लागत में वृद्धि होगी)। आज मैंने डॉ। एडम मेयरसन के एक व्याख्यान में भाग लिया और उन्होंने उस प्रकार के डेटा को "वियोज्य डेटा" के रूप में संदर्भित किया।

K- साधनों के अलावा, कुछ क्लस्टरिंग औपचारिकताएं क्या हैं, जो क्लस्टरिंग एल्गोरिदम (अनुमान या उत्तराधिकार) के लिए उत्तरदायी हो सकती हैं जो डेटा में प्राकृतिक पृथक्करण का शोषण करेंगे?

जवाबों:


11

इस तरह की धारणा को पकड़ने की कोशिश करने वाला एक हालिया मॉडल बाल्कन, ब्लम और गुप्ता'09 है। वे विभिन्न क्लस्टरिंग उद्देश्यों के लिए एल्गोरिदम दे जब डेटा को संतुष्ट करता है एक निश्चित धारणा: अर्थात् है कि अगर इस तरह के डेटा है कि किसी भी है क्लस्टरिंग उद्देश्य के लिए -approximation है ε इष्टतम क्लस्टरिंग के लिए -close, तो वे कुशल एल्गोरिदम लगभग एक को खोजने के लिए दे सकते हैं -सीमल क्लस्टरिंग, यहां तक ​​कि सी के मूल्यों के लिए, जिसके लिए सी -approximation ढूँढना एनपी-हार्ड है। यह डेटा के बारे में एक धारणा है कि किसी तरह "अच्छा" या "वियोज्य" है। इस पर लिपटन की एक अच्छी ब्लॉग पोस्ट है।cϵcc

αα

मुझे यकीन है कि पहले काम और पहले प्रासंगिक धारणाएं हैं, लेकिन ये आपके प्रश्न से संबंधित कुछ हालिया सैद्धांतिक परिणाम हैं।


8

ओस्ट्रोव्स्की एट अल द्वारा कामों के अलावा , और के -मीन्स के व्यवहार पर आर्थर और वासिल्वित्सकी द्वारा किए गए काम के अलावा , यूक्लिडियन के- मेडियन पर सैद्धांतिक काम का एक निकाय है और के-साधनों के तहत क्लस्टरिंग के लिए "रैखिक" समय एल्गोरिदम के लिए अग्रणी है। इन योगों। इन बाद के कार्यों के बारे में दिलचस्प यह है कि वे विश्लेषण में एक उपकरण के रूप में पृथक्करण का उपयोग करते हैं, लेकिन डेटा में इसकी आवश्यकता नहीं है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.