एग्लोमेरेटिव पदानुक्रमित क्लस्टरिंग के लिए क्या स्टॉप-मानदंड व्यवहार में उपयोग किए जाते हैं?


32

मैंने व्यापक साहित्य को सभी प्रकार के मानदंडों (जैसे ग्लेन एट अल। 1985 (पीडीएफ) और जंग एट अल। 2002 (पीडीएफ)) का प्रस्ताव करते हुए पाया है । हालांकि, इनमें से अधिकांश को लागू करना आसान नहीं है (कम से कम मेरे दृष्टिकोण से)। मैं एक क्लस्टर पदानुक्रम प्राप्त करने के लिए scipy.cluster.hierarchy का उपयोग कर रहा हूं , और अब मैं यह तय करने की कोशिश कर रहा हूं कि इससे फ्लैट क्लस्टर्स कैसे बनाए जाएं। मेरा लक्ष्य मेरी टिप्पणियों में आम पैटर्न की खोज करना है, इसलिए मेरे पास प्राप्त क्लस्टरिंग की तुलना करने के लिए कोई संदर्भ नहीं है। क्या कोई व्यावहारिक समाधान सुझा सकता है?


मेरे वेब-पेज पर, कई लोकप्रिय आंतरिक क्लस्टरिंग मानदंड (नियमों को रोकना) के विवरण (और SPSS फ़ंक्शन) के साथ "क्लस्टरिंग मानदंड" ज़िप संग्रह है । आपकी जानकारी के लिए।
ttnphns

जवाबों:


18

निम्नलिखित विकिपीडिया प्रविष्टि वास्तव में सबसे लोकप्रिय और अपेक्षाकृत सरल तरीकों को समझाने का एक बहुत अच्छा काम करती है:

कोहनी विधि अनुमानी वर्णित वहाँ शायद इसके सरल व्याख्या करने के लिए सबसे लोकप्रिय कारण (विचरण की राशि समूहों की संख्या से समझाया गया है) दृश्य की जांच के साथ मिलकर है। जानकारी सैद्धांतिक विधि या तो लागू करने के लिए कठिन नहीं है और पेज कुछ स्यूडोकोड आप शुरू करने के लिए इस्तेमाल कर सकते हैं है। उत्तरार्द्ध मॉडल जटिलता के आधार पर एक दंडित संभावना के लिए विनम्र है, जैसे कि एआईसी, बीआईसी, आदि जैसे प्रसिद्ध सूचना मानदंड।


धन्यवाद! पदानुक्रमित क्लस्टरिंग पर विकिपीडिया लेख उस एक से लिंक नहीं करता है।
ब्योर्न पोलेक्स

2
अरे हाँ। "देखिए" लिंक के तहत अब फिक्स्ड, इस ओर इशारा करने के लिए धन्यवाद!
ars

कोहनी विधि में, क्या होगा अगर वस्तुओं को क्लस्टर किया जाए, काफी "जटिल" हैं? मेरा मतलब है कि वे सरल बिंदु नहीं हैं, इसके बजाय वे डेटा के जटिल संग्रह हैं। मुझे पता चला है कि वे जोड़ीदार दूरी (स्व-परिभाषित दूरी) हैं। मैं कोहनी विधि को लागू करने के लिए यहां तथाकथित "विचरण" की गणना कैसे करूंगा?
Sibbs जुआ

17

अपने डेटा में "सर्वश्रेष्ठ" संख्याओं का चयन कैसे करें, जो भी क्लस्टरिंग विधि आप उपयोग करते हैं, उसके बारे में एक स्पष्ट-कट समाधान प्रदान करना मुश्किल है, क्योंकि क्लस्टर विश्लेषण सांख्यिकीय इकाइयों के समूहों को अलग करना चाहता है (चाहे वह व्यक्ति हो या चर) ) अनिवार्य रूप से खोजपूर्ण या वर्णनात्मक उद्देश्य के लिए। इसलिए, आपको अपनी क्लस्टरिंग स्कीम के आउटपुट की व्याख्या करनी होगी और कई क्लस्टर समाधान समान रूप से दिलचस्प हो सकते हैं।

अब, सामान्य सांख्यिकीय मानदंड के बारे में निर्णय लेते थे, जब एकत्रित डेटा को रोकने के लिए इस्तेमाल किया जाता था, जैसा कि @ars द्वारा बताया गया है कि दृश्य-निर्देशित मानदंड हैं , जिसमें डेंड्रोग्राम का विश्लेषण या क्लस्टर प्रोफाइल का निरीक्षण भी शामिल है, जिसे सिल्हूट प्लॉट्स (रूसेवु, 1987) भी कहा जाता है। । कई संख्यात्मक मानदंड , जिन्हें वैधता सूचक के रूप में भी जाना जाता है, का भी प्रस्ताव किया गया था, उदाहरण के लिए डन की वैधता सूचकांक, डेविस-बोल्डिन वैध- इत्यादि सूचकांक, सी इंडेक्स, ह्यूबर्ट की गामा, कुछ का नाम। पदानुक्रमित क्लस्टरिंग अक्सर k-mean (वास्तव में, k- साधन के कई उदाहरण हैं क्योंकि यह स्टोकेस्टिक एल्गोरिथ्म है) के साथ एक साथ चलाया जाता है, ताकि यह पाए जाने वाले क्लस्टरिंग समाधानों में समर्थन जोड़ दे। मुझे नहीं पता कि यह सब सामान पाइथन में आसानी से उपलब्ध है, लेकिन R में बहुत सारी विधियाँ उपलब्ध हैं (देखेंक्लस्टर कार्य दृश्य, पहले से ही संबंधित प्रश्न के लिए @mbq द्वारा उद्धृत किया गया है, मूवी उपकरण पर क्लस्टरिंग एल्गोरिदम को लागू करने के लिए कौन से टूल का उपयोग किया जा सकता है? )। अन्य दृष्टिकोणों में फ़ज़ी क्लस्टरिंग और मॉडल-आधारित क्लस्टरिंग ( साइकोमेट्रिक समुदाय में अव्यक्त विशेषता विश्लेषण भी कहा जाता है) शामिल हैं, यदि आप अपने डेटा में क्लस्टर की संख्या चुनने के लिए अधिक मजबूत तरीका तलाशते हैं।

BTW, मैं अभी-अभी इस वेबपेज पर आया हूं, स्किपी-क्लस्टर , जो पदानुक्रमिक समूहों का निर्माण, दृश्य और विश्लेषण करने के लिए Scipy का विस्तार है । हो सकता है कि इसमें अन्य कार्य शामिल हों? मैंने PyChem के बारे में भी सुना है जो बहुभिन्नरूपी विश्लेषण के लिए बहुत अच्छा सामान प्रदान करता है।

निम्नलिखित संदर्भ भी सहायक हो सकते हैं:

स्टेनली, डी।, और ब्रुस्को, एमजे (2008)। क्लस्टर विश्लेषण में चर का चयन: आठ प्रक्रियाओं की एक अनुभवजन्य तुलना। साइकोमेट्रिका , 73 , 125-144।


इस उत्कृष्ट उत्तर के लिए धन्यवाद! वास्तव में, आपके द्वारा दिखाया गया पदानुक्रमिक क्लस्टरिंग मॉड्यूल पहले से ही स्कैपी का हिस्सा है। इसके अलावा, scipy k- साधनों का कार्यान्वयन प्रदान करता है, इसलिए मैं आसानी से इसका उपयोग कर सकता हूं।
ब्योर्न पोलेक्स

ठीक है, मैं इस में विवरण में नहीं देखा था। K- साधनों के लिए, आपको इस तथ्य पर ध्यान देने की आवश्यकता है कि आम तौर पर क्लस्टर समाधान को सत्यापित करने के लिए हमें दो बाहरी छोरों की आवश्यकता होती है (एक जहाँ आप समूहों के # अलग-अलग होते हैं और दूसरे में बीज को अलग करने के लिए - उद्देश्य RSS को कम करने के लिए किया जाता है); तब आप समूहों के इष्टतम # को चुनने के लिए गैप सांख्यिकी का उपयोग कर सकते हैं।
chl

5

मैं हाल ही में क्लस्टर आर विज़ुअलाइज़ेशन विधि (आर में लागू) का फंड बन गया ।

मैं "अच्छे" समूहों की संख्या का आकलन करने के लिए एक अतिरिक्त विधि के लिए इसका उपयोग करता हूं। इसे अन्य क्लस्टरिंग विधियों में विस्तारित करना इतना कठिन नहीं है (मैंने वास्तव में इसे किया था, बस कोड प्रकाशित करने के लिए नहीं मिला था)

वैकल्पिक शब्द

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.