क्लस्टरिंग विधि का चयन कैसे करें? एक क्लस्टर समाधान (विधि पसंद को वारंट करने के लिए) को कैसे मान्य किया जाए?


35

क्लस्टर विश्लेषण के साथ एक सबसे बड़ा मुद्दा यह है कि हम अलग-अलग निष्कर्ष निकालने के लिए हो सकते हैं, जब विभिन्न क्लस्टरिंग विधियों का उपयोग किया जाता है (पदानुक्रमित क्लस्टरिंग में विभिन्न लिंकेज विधियों सहित)।

मैं इस पर आपकी राय जानना चाहूंगा - आप किस विधि का चयन करेंगे, और कैसे। कोई कह सकता है "क्लस्टरिंग की सबसे अच्छी विधि जो आपको सही उत्तर देती है"; लेकिन मैं इसके जवाब में सवाल कर सकता हूं कि क्लस्टर विश्लेषण को एक अनुपयोगी तकनीक माना जाता है - तो मुझे कैसे पता चलेगा कि कौन सी विधि या लिंकेज सही उत्तर है?

सामान्य तौर पर: क्या एक क्लस्टरिंग अकेले मजबूत है जिस पर भरोसा करना है? या हमें दूसरी विधि की आवश्यकता है और दोनों के आधार पर एक साझा परिणाम प्राप्त करना है?

मेरा प्रश्न केवल क्लस्टरिंग प्रदर्शन को मान्य / मूल्यांकन करने के संभावित तरीकों के बारे में नहीं है , बल्कि व्यापक है - हम किस आधार पर एक क्लस्टरिंग विधि / एल्गोरिथ्म को दूसरे पर चुनते हैं / पसंद करते हैं । इसके अलावा, क्या आम चेतावनी है कि हमें अपने डेटा को क्लस्टर करने के लिए एक विधि का चयन करते समय चारों ओर देखना चाहिए?

मुझे पता है कि यह बहुत सामान्य प्रश्न है और उत्तर देना बहुत मुश्किल है। मैं केवल यह जानना चाहूंगा कि क्या आपके पास इस बारे में अधिक जानने के लिए कोई टिप्पणी या कोई सलाह या मेरे लिए कोई सुझाव है।


भी की जाँच करें इस समान प्रश्न।
ttnphns

और यह एक।
ttnphns

2
कुछ लिंक विशेष रूप से आंतरिक और बाहरी सत्यापन के बारे में: यह । और यह । और वह । और वह । और वह । और यह । और योनद । और अधिक के लिए खोजें।
ttnphns

जवाबों:


50

अक्सर वे कहते हैं कि कोई अन्य विश्लेषणात्मक तकनीक नहीं है जैसा कि "जैसा आप बोते हैं, वैसे ही बोएंगे"।

मैं इस या उस क्लस्टरिंग विधि की "शुद्धता" के कई आयामों या पहलुओं की कल्पना कर सकता हूं :

  1. क्लस्टर रूपक"मैंने इस पद्धति को प्राथमिकता दी क्योंकि यह ऐसे (या इस तरह से) समूहों का गठन करती है जो मेरी विशेष परियोजना में क्लस्टर की मेरी अवधारणा के साथ मिलते हैं" । प्रत्येक क्लस्टरिंग एल्गोरिथ्म या सबऑलगोरिथम / विधि से तात्पर्य क्लस्टर की संरचना / निर्माण / आकार से है। पदानुक्रमित तरीकों के संबंध में, मैंने इसे यहां एक बिंदु में मनाया है , और यहां भी। यानी कुछ विधियाँ ऐसे गुच्छे देती हैं जो प्रोटोटाइपिक रूप से "प्रकार" होते हैं, अन्य "हलकों को [रुचि द्वारा]" देते हैं, फिर भी अन्य "[राजनीतिक] प्लेटफार्मों", "कक्षाएं", "श्रृंखला", आदि उस पद्धति का चयन करते हैं जो क्लस्टर रूपक आपको सूट करता है। उदाहरण के लिए, यदि मैं अपने ग्राहक खंडों को निम्न प्रकार से देखता हूं - बीच में संघनन (ओं) के साथ अधिक या कम गोलाकार आकृतियाँ, मैं वार्ड की लिंकेज विधि या के-मीन्स चुनूँगा, लेकिन स्पष्ट रूप से एकल लिंकेज विधि नहीं। यदि मुझे एक फोकल प्रतिनिधि बिंदु की आवश्यकता है तो मैं मेडोइड विधि का उपयोग कर सकता हूं। अगर मुझे उनके लिए कोर और परिधीय प्रतिनिधियों होने के लिए स्क्रीन अंक की आवश्यकता है तो मैं डीबीएससीएएन दृष्टिकोण का उपयोग कर सकता हूं।

  2. डेटा / विधि मान्यताओं"मैंने इस पद्धति को प्राथमिकता दी है क्योंकि मेरा डेटा प्रकृति या प्रारूप इसे पूर्वनिर्धारित करता है" । ऊपर दिए गए मेरे लिंक में इस महत्वपूर्ण और विशाल बिंदु का भी उल्लेख किया गया है। विभिन्न एल्गोरिदम / विधियों के लिए उनके लिए विभिन्न प्रकार के डेटा की आवश्यकता हो सकती है या डेटा पर लागू होने के लिए अलग-अलग निकटता माप, और इसके विपरीत, अलग-अलग डेटा के लिए अलग-अलग तरीकों की आवश्यकता हो सकती है। मात्रात्मक के लिए तरीके और गुणात्मक डेटा के लिए तरीके हैं। मिश्रण मात्रात्मक + गुणात्मक विशेषताएं नाटकीय रूप से तरीकों के बीच पसंद का दायरा बढ़ाती है। वार्ड या के-साधनआधारित हैं - स्पष्ट रूप से या अंतर्निहित रूप से - पर (वर्ग) यूक्लिडियन निकटता माप केवल और न कि मनमाने उपाय पर। बाइनरी डेटा विशेष समानता उपायों के लिए कॉल कर सकते हैं जो बदले में कुछ तरीकों का उपयोग करके दृढ़ता से सवाल करेंगे, उदाहरण के लिए वार्ड या के-साधन, उनके लिए। बड़े डेटा को विशेष एल्गोरिदम या विशेष कार्यान्वयन की आवश्यकता हो सकती है।

  3. 1के बारे में), इसलिए उच्च वैधता आंशिक रूप से दिए गए डेटासेट की यादृच्छिक ख़ासियत के कारण हो सकती है; एक परीक्षण डाटासेट हमेशा फायदेमंद होता है।]

  4. बाहरी वैधता"मैंने इस पद्धति को पसंद किया क्योंकि इसने मुझे क्लस्टर दिए जो कि उनकी पृष्ठभूमि या समूहों द्वारा भिन्न होते हैं जो मेरे द्वारा ज्ञात सच्चे लोगों के साथ मेल खाते हैं" । यदि एक क्लस्टरिंग विभाजन क्लस्टर को प्रस्तुत करता है जो स्पष्ट रूप से कुछ महत्वपूर्ण पृष्ठभूमि पर भिन्न होता है (अर्थात क्लस्टर विश्लेषण में भाग नहीं लिया जाता है) तो यह उस पद्धति के लिए एक संपत्ति है जिसने विभाजन का उत्पादन किया। किसी भी विश्लेषण का उपयोग करें जो अंतर की जांच करने के लिए लागू होता है; वहाँ भी कई उपयोगी बाहरी क्लस्टरिंग मानदंड मौजूद हैं(रैंड, एफ-माप, आदि आदि)। बाहरी सत्यापन मामले का एक और प्रकार है जब आप किसी तरह अपने डेटा में वास्तविक समूहों को जानते हैं ("जमीनी सच्चाई" जानते हैं), जैसे कि आपने स्वयं क्लस्टर बनाए। फिर आपकी क्लस्टरिंग विधि कितनी सही तरीके से वास्तविक समूहों को उजागर करने में सक्षम है, बाहरी वैधता का माप है।

  5. क्रॉस-वैधता"मैंने इस पद्धति को पसंद किया क्योंकि यह मुझे डेटा के समतुल्य नमूनों पर बहुत समान क्लस्टर दे रहा है या ऐसे नमूनों पर अच्छी तरह से एक्सट्रपलेट करता है" । विभिन्न दृष्टिकोण और उनके संकर हैं, कुछ अधिक क्लस्टरिंग विधियों के साथ संभव है, जबकि अन्य तरीकों के साथ अन्य। दो मुख्य दृष्टिकोण स्थिरता जांच और सामान्यता हैंचेक। एक क्लस्टरिंग विधि की स्थिरता की जाँच करना, एक यादृच्छिक रूप से विभाजन को डेटा को आंशिक रूप से विभाजित करने या पूरी तरह से विघटित करने के लिए अलग करता है या प्रत्येक पर क्लस्टरिंग करता है; तब मेल खाता है और समाधानों की तुलना करता है, जो कुछ आकस्मिक क्लस्टर विशेषता (उदाहरण के लिए, एक क्लस्टर की केंद्रीय प्रवृत्ति स्थान) को सेट करता है या नहीं। सामान्यता की जाँच करने का तात्पर्य है कि ट्रेन सेट पर क्लस्टरिंग करना और फिर टेस्ट सेट की वस्तुओं को नियत करने के लिए इसके उद्भव क्लस्टर की विशेषता या नियम का उपयोग करना, साथ ही टेस्ट सेट पर क्लस्टरिंग करना। असाइनमेंट परिणाम और परीक्षण सेट ऑब्जेक्ट्स के क्लस्टरिंग सदस्यता के क्लस्टरिंग परिणाम की तुलना तब की जाती है।

  6. व्याख्या"मैंने इस पद्धति को पसंद किया क्योंकि इसने मुझे गुच्छे दिए, जो समझाए गए, सबसे अधिक प्रेरक हैं कि दुनिया में अर्थ है" । यह सांख्यिकीय नहीं है - यह आपकी मनोवैज्ञानिक मान्यता है। आपके, डोमेन और संभवतः दर्शकों / क्लाइंट के लिए परिणाम कितने सार्थक हैं। सबसे व्याख्यात्मक, मसालेदार परिणाम देने वाली विधि चुनें।

  7. कुरूपता । कुछ शोध नियमित रूप से और सभी शोध कभी-कभी कहते हैं "मैंने इस पद्धति को पसंद किया क्योंकि यह मेरे डेटा के साथ समान परिणाम देता है जो कि उन सभी के बीच कई अन्य विधियों के साथ है" । यह एक अनुमानी लेकिन संदिग्ध रणनीति है जो मानती है कि काफी सार्वभौमिक डेटा या काफी सार्वभौमिक विधि मौजूद है।

अंक 1 और 2 सैद्धांतिक और पूर्ववर्ती परिणाम प्राप्त करने वाले हैं; इन बिंदुओं पर विशेष भरोसा घृणा, आत्म-आश्वासनपूर्ण खोज रणनीति है। अंक 3, 4 और 5 अनुभवजन्य हैं और परिणाम का पालन करते हैं; इन बिंदुओं पर विशेष भरोसा करना, काल्पनिक, कोशिश-सब-बाहर खोजपूर्ण रणनीति है। बिंदु 6 रचनात्मक है जिसका अर्थ है कि इसे फिर से लागू करने की कोशिश करने के लिए किसी भी परिणाम से इनकार करता है। प्वाइंट 7 वफादार मौवीस फोई है।

7 के माध्यम से अंक 3 भी "बेस्ट" समूहों की संख्या के आपके चयन में निर्णय ले सकता है ।


1


1
मैं वास्तव में आंतरिक वैधता उपायों को पसंद करता हूं, जैसे कि-साधन और वार्ड पदानुक्रमिक क्लस्टरिंग में इंट्रा-क्लस्टर संस्करण का योग, साथ ही साथ दून सूचकांकों की तरह। वे डेटा-स्वतंत्र हैं, और कभी-कभी क्लस्टरिंग एल्गोरिथ्म पर भी स्वतंत्र होते हैं, भले ही उनमें से कुछ केवल विशिष्ट एल्गोरिदम के साथ समझ में आते हैं।
डगलस डी रिज़ो मेनेगेटी

2
@DouglasDeRizzoMeneghetti मैं असहमत हूं। वे न तो डेटा-स्वतंत्र हैं (वे आपके डेटा पर बहुत मजबूत धारणाएं बनाते हैं, जैसे कि रैखिकता और विशेषताओं की समानता) और न ही क्लस्टरिंग एल्गोरिदम से स्वतंत्र। वास्तव में, प्रत्येक आंतरिक माप स्वयं का एक क्लस्टरिंग एल्गोरिथ्म है (आप इस फ़ंक्शन के लिए अनुकूलित कर सकते हैं - यह सिर्फ आमतौर पर बहुत महंगा है)।
Anony-Mousse

1
मैं समझता हूं कि कुछ आंतरिक वैधता उपायों, जैसे कि इंट्रा-क्लस्टर वेरिएंट के योग, बेहतर परिणाम हैं यदि क्लस्टर सदस्यता को क्लस्टरिंग विधि के माध्यम से प्राप्त किया गया है जो इंट्रा-क्लस्टर वेरिएंट की राशि को कम करने के लिए जाता है, और यह एक वैधता उपाय है जैसे डन सूचकांक मान लेते हैं कि अच्छे समूह कॉम्पैक्ट और दूर हैं (भले ही "कॉम्पैक्ट" और "दूर के" की व्याख्या व्याख्या के लिए खुली हो), लेकिन तथ्य यह है कि आप इन उपायों की गणना केवल सुविधा मूल्यों और क्लस्टर सदस्यता के साथ कर सकते हैं तत्व उन्हें काफी बहुमुखी बनाते हैं।
डगलस डी रिज़ो मेनेगेटी

9

ज्यादातर लाल झंडा मापदंड हैं। डेटा के गुण जो आपको बताते हैं कि निश्चित दृष्टिकोण विफल हो जाएगा।

  1. अगर आपको इस बात का कोई अंदाजा नहीं है कि आपके डेटा का मतलब क्या है तो इसका विश्लेषण करना बंद कर दें। आप बादलों में सिर्फ जानवरों का अनुमान लगा रहे हैं।

  2. यदि विशेषताएँ स्केल में भिन्न होती हैं और नॉनलाइन या तिरछी होती हैं। यह आपके विश्लेषण को तब तक बर्बाद कर सकता है जब तक कि आपके पास उचित सामान्यीकरण का बहुत अच्छा विचार न हो। बंद करो और अपनी सुविधाओं को समझना सीखो, यह क्लस्टर के लिए बहुत जल्दी है।

  3. यदि हर विशेषता समतुल्य (समान स्केल), और रैखिक है, और आप अपने डेटा सेट को निर्धारित करना चाहते हैं (और कम से कम चुकता त्रुटि आपके डेटा के लिए एक अर्थ है), तो k-mean एक कोशिश के लायक है। यदि आपकी विशेषताएँ विभिन्न प्रकार और पैमाने की हैं, तो परिणाम अच्छी तरह से परिभाषित नहीं है। प्रतिधारण: आयु और आय। आय बहुत तिरछी है, और x years = y dollarबकवास है।

  4. यदि आपके पास समानता या दूरी निर्धारित करने का एक बहुत स्पष्ट विचार है (एक सार्थक तरीके से, कुछ संख्या की गणना करने की क्षमता पर्याप्त नहीं है) तो पदानुक्रमित क्लस्टरिंग और डीबीएससीएएन एक अच्छा विकल्प है। यदि आपके पास कोई विचार नहीं है कि समानता को कैसे निर्धारित किया जाए, तो उस समस्या को पहले हल करें।

आप देखते हैं कि सबसे आम समस्या यह है कि लोग अपने कच्चे डेटा को क्लस्टरिंग में डंप करने का प्रयास करते हैं, जब उन्हें पहली बार इसे समझने और सामान्य करने की आवश्यकता होती है, और समानता का पता लगाते हैं।

उदाहरण:

  1. आरजीबी अंतरिक्ष में एक छवि के पिक्सेल। कम-वर्ग कुछ समझ में आता है और सभी विशेषताएँ तुलनीय हैं - k- साधन एक अच्छा विकल्प है।

  2. भौगोलिक डेटा: कम-वर्ग बहुत उपयुक्त नहीं है। आउटलेयर होगा। लेकिन दूरी बहुत सार्थक है। यदि आपके पास बहुत साफ डेटा है तो DBSCAN का उपयोग करें, यदि आपके पास बहुत अधिक शोर है, या HAC (पदानुक्रमित एग्लोमेरेटिव क्लस्टरिंग) है।

  3. प्रजातियाँ विभिन्न आवासों में देखी जाती हैं। खमीर-वर्ग संदिग्ध है, लेकिन उदाहरण के लिए जैकार्ड समानता सार्थक है। आपके पास शायद केवल कुछ अवलोकन हैं और कोई "गलत" निवास स्थान नहीं हैं - एचएसी का उपयोग करें।


+1। मैं आपसे केवल एक और अभिव्यक्ति खोजने के लिए विनती करता हूं stop criteria। जैसा कि आप जानते हैं, "नियम रोकना" या "स्टॉप मानदंड" पदानुक्रमित क्लस्टरिंग के डोमेन में "आंतरिक क्लस्टरिंग मानदंड" का एक पर्याय है। तो, यह एक पूर्वगामी शब्द है। लेकिन आप जवाब में इन शब्दों का अर्थ अलग-अलग अर्थों में लेते हैं, और यह एक पाठक को भ्रमित कर सकता है।
ttnphns

1
"लाल झंडा मानदंड" के बारे में कैसे? एचएसी के लिए थ्रेसहोल्ड रोकना, मैं आपकी बात देखता हूं।
Anony-Mousse

मेरे लिए अच्छा है, अच्छा विकल्प।
ttnphns 20:14

अंक 2,3 में आप कहते हैं (non)linear attributes। क्या मतलब? किस तरह से एक "रैखिक" विशेषता? या आप गुच्छों के आकार, यानी दीर्घवृत्त (और घुमावदार नहीं) के रैखिक संबंधों की बात कर रहे हैं?
ttnphns

उदाहरण के साथ डेटा एक घातीय वितरण।
ऐनी-मौसे

3

मुझे नहीं लगता कि ऐसा करने के लिए एक अच्छा औपचारिक तरीका है; मुझे लगता है कि अच्छे समाधान वे हैं जो समझदारी से बनाते हैं।

बेशक, आप डेटा को विभाजित करने और कई बार और एक को क्लस्टर करने की कोशिश कर सकते हैं, लेकिन फिर अभी भी सवाल है कि कौन सा उपयोगी है।


2
मुझे लगता है कि इस शब्द का अर्थ पर्याप्त तनाव नहीं हो सकता। मेरे उत्तर का मुख्य बिंदु यह भी है - आपको पहले अपने डेटा का बोध कराना होगा।
Anony-Mousse

@ Anony-Mousse, अपनी तरफ से एक overkill। मैं उन लोगों से शर्त लगाता हूं जो यह नहीं जानते कि उनके डेटा का "अर्थ" कैसे बनाया जाता है या शायद ही इस साइट पर जाते हैं और वे इस तरह के अच्छे सवाल नहीं पूछते हैं जैसा कि यहां पूछा गया है।
ttnphns

@ttnphns मुझे नहीं पता कि ऐसे लोग इस साइट पर कितनी बार आते हैं, और वे निश्चित रूप से ऐसे सवाल नहीं पूछते हैं। लेकिन बहुत से लोग एक्सेल फ़ंक्शन की तरह काम करने के लिए क्लस्टर विश्लेषण की उम्मीद करते हैं। डेटा का चयन करें, "क्लस्टर" पर क्लिक करें और मैजिक ग्राहक सेगमेंट में आएं। जो कभी भी यादृच्छिक से बेहतर काम नहीं करता है। और उदाहरण के लिए, यह उपयोगकर्ता अपने डेटा को समझने में विफल रहा: आंकड़े. stackexchange.com/q/195521/7828
Anony-Mousse
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.