क्लस्टरिंग गुणवत्ता उपाय


18

मेरे पास इनपुट पैरामीटर (क्लस्टर की संख्या ) के साथ एक क्लस्टरिंग एल्गोरिथ्म (k- साधन नहीं ) है। क्लस्टरिंग करने के बाद मैं इस क्लस्टरिंग की गुणवत्ता का कुछ मात्रात्मक माप प्राप्त करना चाहता हूं। क्लस्टरिंग एल्गोरिथ्म में एक महत्वपूर्ण संपत्ति है। के लिए अगर मैं फ़ीड डेटा बिंदुओं उन के बीच कोई महत्वपूर्ण अंतर के बिना इस एल्गोरिथ्म के लिए एक परिणाम मैं युक्त एक क्लस्टर मिल जाएगा के रूप में डेटा बिंदुओं और के साथ एक क्लस्टर 1 डेटा बिंदु। जाहिर है यह वह नहीं है जो मैं चाहता हूं। इसलिए मैं इस क्लस्टरिंग की उचितता का अनुमान लगाने के लिए इस गुणवत्ता माप की गणना करना चाहता हूं। आदर्श रूप से मैं अलग-अलग कश्मीर के लिए इस उपायों की तुलना करने में सक्षम हूं । तो मैं k की श्रेणी में क्लस्टरिंग चलाऊंगाkk=2NN11kkऔर सबसे अच्छी गुणवत्ता के साथ एक का चयन करें। मैं ऐसे गुणवत्ता माप की गणना कैसे करूं?

अपडेट करें:

यहां एक उदाहरण है जब (N1,1) एक खराब क्लस्टरिंग है। मान लीजिए कि समबाहु त्रिभुज बनाने वाले समतल पर 3 बिंदु हैं। इन बिंदुओं को 2 समूहों में विभाजित करना स्पष्ट रूप से उन्हें 1 या 3 समूहों में विभाजित करने से भी बदतर है।


मेरे लिए यह स्पष्ट नहीं है। मैं समूहों को देखने के वास्तविकता में अलग अलग आकार हर समय है कि ...
है QUIT - Anony-मूस

जवाबों:


12

मीट्रिक का चुनाव इस बात पर निर्भर करता है कि आप क्लस्टरिंग के उद्देश्य को क्या मानते हैं। व्यक्तिगत रूप से मुझे लगता है कि विभिन्न डेटा निर्माण प्रक्रिया द्वारा उत्पन्न टिप्पणियों के विभिन्न समूहों की पहचान करने के बारे में विचार करना चाहिए। इसलिए मैं ज्ञात डेटा जनरेटिंग प्रक्रियाओं से डेटा उत्पन्न करके एक क्लस्टरिंग की गुणवत्ता का परीक्षण करूंगा और फिर गणना करूंगा कि क्लस्टरिंग द्वारा कितनी बार पैटर्न को गलत तरीके से बनाया गया है। बेशक इसमें प्रत्येक निर्माण प्रक्रिया से पैटर्न के वितरण के बारे में धारणाएं शामिल हैं, लेकिन आप पर्यवेक्षित वर्गीकरण के लिए डिज़ाइन किए गए डेटासेट का उपयोग कर सकते हैं।

अन्य लोग समूह को एक साथ देखने का प्रयास करते हैं, जो समान गुण मान के साथ इंगित करते हैं, जिसमें एसएसई आदि जैसे उपाय लागू होते हैं। हालाँकि मुझे यह असंतोषजनक होने की बजाय क्लस्टरिंग की परिभाषा लगती है, क्योंकि यह आपको डेटा के विशेष नमूने के बारे में कुछ बताता है, न कि अंतर्निहित वितरण के बारे में कुछ सामान्य रूप से। अतिव्यापी समूहों से निपटने के तरीके इस दृष्टि से एक विशेष समस्या है ("डेटा जनरेट करने की प्रक्रिया के लिए" यह वास्तविक समस्या का कारण नहीं है, आपको क्लस्टर सदस्यता की संभावनाएँ मिल सकती हैं)।


3
+1 मॉडल-आधारित क्लस्टरिंग बनाम विशुद्ध रूप से दूरी-आधारित अप्रतिस्पर्धी क्लस्टरिंग के बीच अंतर को उजागर करने के लिए ।
CHL

1
मुझे लगता है कि दोनों उद्देश्य अलग-अलग सेटिंग्स में उनके उपयोग का उपयोग करते हैं। कई संदर्भ हैं जो आप वास्तव में केवल हाथ में डेटा को देखने के लिए करते हैं (जैसे। बाह्य परिभाषा)। इसके अलावा, विभिन्न डेटा जनरेट करने की प्रक्रियाओं में सक्षम होने से पहले, आपको अन्वेषण की आवश्यकता है जो आपकी दूसरी परिभाषा के साथ सबसे अच्छा है ...
एटिएन लो-डेकेरी

मैं एटीन से सहमत हूं कि दोनों विधियों के अपने उपयोग हैं। हालाँकि मैं यह भी कहूंगा कि क्या अवलोकन एक बाह्य वस्तु है या स्पष्ट रूप से डेटा जनरेट करने की प्रक्रिया के बारे में कुछ धारणाएँ नहीं हैं, इसलिए क्लस्टरिंग का दूसरा रूप संभवतः डेटा को समझने में पहले चरण के लिए है जब आप अपने आप को ठीक से उन्मुख करने का प्रयास कर रहे हैं।
डिक्रान मार्सुपियल

4

चूंकि क्लस्टरिंग अनसुनी है, इसलिए यह प्राथमिकता जानना कठिन है कि सबसे अच्छी क्लस्टरिंग क्या है। यह शोध विषय है। जाने-माने मात्रात्मक सामाजिक वैज्ञानिक गैरी किंग का इस विषय पर आगामी लेख है


+! हाँ; @ मोम आप इस "स्पष्ट" क्लस्टरिंग को क्या कहते हैं?

@mbq: वास्तव में मुझे नहीं पता कि इसके लिए एक अच्छी क्लस्टरिंग क्या होगी। "स्पष्ट" से मुझे लगता है कि (एन -1, 1) निश्चित रूप से इसके लिए एक अच्छी क्लस्टरिंग नहीं है। एक बेहतर क्लस्टरिंग केवल एक क्लस्टर होगा, इसलिए कोई क्लस्टरिंग बिल्कुल नहीं। या हो सकता है कि कुछ समूहों की संख्या 2 से अधिक हो।
मैक्स

आपको लगता है कि लिंक टूट गया है।
एटिएन लो-डेकेरी

यहाँ लेख के लिए अद्यतन लिंक है: gking.harvard.edu/files/abs/discov-abs.shtml
Dolan Antenucci

4

यहाँ आपके पास कुछ उपाय हैं, लेकिन कई और भी हैं:

SSE: प्रत्येक क्लस्टर के आइटम से वर्ग त्रुटि का योग।

इंटर क्लस्टर दूरी: प्रत्येक क्लस्टर सेंट्रोइड के बीच वर्ग दूरी का योग।

प्रत्येक क्लस्टर के लिए इंट्रा क्लस्टर की दूरी: प्रत्येक क्लस्टर के आइटम से उसके केंद्र तक वर्ग दूरी का योग।

अधिकतम त्रिज्या: उदाहरण के लिए अपने क्लस्टर सेंट्रोइड से सबसे बड़ी दूरी।

औसत त्रिज्या: उदाहरण के लिए क्लस्टर क्लस्टर की संख्या से विभाजित अपने क्लस्टर सेंट्रोइड से सबसे बड़ी दूरी का योग।


मैंने अंतर क्लस्टर दूरी में इंट्रा का उपयोग करने की कोशिश की है, लेकिन एक बिंदु के साथ क्लस्टर के लिए कुछ उपयोगी के बारे में नहीं सोच सकता। इसके अलावा मेरे पास केंद्र बिंदु नहीं है। मेरे पास केवल अंकों के बीच की दूरी है।
मैक्स

अंतर क्लस्टर जितना अधिक बेहतर होगा, आप इसे क्लस्टर के केंद्र के बीच की दूरी की गणना करके माप सकते हैं।
मारीना सॉफ़र

4

आप क्लस्टरिंग सत्यापन क्षेत्र में भाग गए। मेरे छात्र ने वर्णित तकनीकों का उपयोग करके सत्यापन किया:

ए। बनर्जी और आरएन दवे। हॉपकिंस स्टैटिस्टिक का उपयोग करके क्लस्टरिंग मान्य करना। फजी सिस्टम पर 2004 IEEE अंतर्राष्ट्रीय सम्मेलन IEEE Cat No04CH37542, 1: p। 149–153, 2004।

यह सिद्धांत पर आधारित है, कि यदि कोई क्लस्टर मान्य है, तो डेटा बिंदु समान रूप से एक क्लस्टर के भीतर वितरित किए जाते हैं।

लेकिन इससे पहले आपको यह निर्धारित करना चाहिए कि क्या आपके डेटा में कोई तथाकथित क्लस्टरिंग प्रवृत्ति है यानी यदि यह क्लस्टरिंग और क्लस्टर की अधिकतम संख्या के लायक है:

एस। सिट्टा, बी। राफेल और आईएफसी स्मिथ। क्लस्टरिंग के लिए एक व्यापक वैधता सूचकांक। Intell। डेटा गुदा।, 12 (6): पी। 529–548, 2008।


3

जैसा कि दूसरों ने बताया है, "गुणवत्ता" के क्लस्टरिंग के कई उपाय हैं; अधिकांश कार्यक्रम SSE को कम करते हैं। डेटा में शोर, या विधि में शोर, या फ्लैट मिनीमा - सास्काचेवान में कम अंक के बारे में कोई भी एकल संख्या ज्यादा नहीं बता सकती है।

इसलिए पहले "41" को कम करने से पहले कल्पना करने की कोशिश करें, किसी दिए गए क्लस्टरिंग को महसूस करें। फिर 3 रन बनाएं: क्या आप एसएसई 41, 39, 43 या 41, 28, 107 प्राप्त करते हैं? क्लस्टर आकार और रेडी क्या हैं?

(जोड़ा :) सिल्हूट भूखंडों और सिल्हूट स्कोर पर एक नज़र डालें, उदाहरण के लिए इज़मैनमैन द्वारा किताब में, आधुनिक मल्टीवेरेट सांख्यिकीय तकनीक (2008, 731 पी, आईएसबीएन 0387781889)।


3

सिल्हूट क्लस्टरिंग परिणामों का मूल्यांकन करने के लिए इस्तेमाल किया जा सकता। यह क्लस्टर के भीतर औसत दूरी की तुलना निकटतम क्लस्टर में बिंदुओं की औसत दूरी के साथ करता है।


2

इस तरह के रूप में एक तरीका है कि बेतरतीब यादृच्छिक जंगल में इस्तेमाल किया जा सकता है।

रैंडम फ़ॉरेस्ट एल्गोरिदम दो श्रेणी की समस्या के रूप में असुरक्षित वर्गीकरण का इलाज करते हैं, एक पूरी तरह से अलग कृत्रिम और यादृच्छिक डेटा सेट डेटा (रैंडमाइजेशन) में निर्भरता संरचना को हटाकर पहले डेटा सेट से बनाया गया है।

फिर आप इस तरह के एक कृत्रिम और यादृच्छिक डेटा सेट बना सकते हैं, अपने क्लस्टरिंग मॉडल को लागू कर सकते हैं और अपने सच्चे डेटा और अपने यादृच्छिक डेटा में आपकी पसंद के मीट्रिक (जैसे - एसएसई) की तुलना कर सकते हैं।

यादृच्छिकरण, क्रमपरिवर्तन, बूटस्ट्रैपिंग, बैगिंग और / या जैकनिफ़िंग में मिश्रण एक दिए गए क्लस्टरिंग मॉडल की संख्या को मापकर आपको P मान के समान एक माप दे सकता है जो आपको मीट्रिक डेटा का उपयोग करके किसी यादृच्छिक डेटा की तुलना में आपके लिए सही डेटा देता है। चुनाव (जैसे। SSE, या बैग त्रुटि भविष्यवाणी)।

आपका मीट्रिक इस प्रकार अंतर है (सही, यादृच्छिक डेटा के बीच पसंद की किसी भी मीट्रिक में अंतर (संभावना, आकार अंतर, ...)।

कई मॉडलों के लिए इसे बदलना आपको मॉडल के बीच अंतर करने की अनुमति देगा।

यह आर में लागू किया जा सकता है।

randomforest R में उपलब्ध है


+1, मुझे यह विचार पसंद है; हालाँकि, रेंडमाइजेशन / डेटा को अनुमति देना केवल संबंधों को b / t चरों को तोड़ देगा, अगर क्लस्टरिंग w / ia सिंगल वैरिएबल है तो यह काम नहीं करेगा।
गंग -

1

यदि क्लस्टरिंग एल्गोरिथ्म नियतात्मक नहीं है, तो क्लस्टरिंग की "स्थिरता" को मापने की कोशिश करें - पता करें कि प्रत्येक दो अवलोकन एक ही क्लस्टर के कितनी बार होते हैं। यह सामान्य रोचक विधि है, किमी के एल्गोरिथ्म में k चुनने के लिए उपयोगी है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.