पदानुक्रमित क्लस्टरिंग के लिए सही लिंकेज विधि चुनना


33

मैं उस डेटा पर पदानुक्रमिक क्लस्टरिंग कर रहा हूं जिसे मैंने इकट्ठा किया है और Google BigQuery पर रेडिट डेटा डंप से संसाधित किया है।

मेरी प्रक्रिया निम्नलिखित है:

  • नवीनतम 1000 पोस्ट / आर / राजनीति में प्राप्त करें
  • सभी टिप्पणियों को इकट्ठा करें
  • डेटा संसाधित करें और एक n x mडेटा मैट्रिक्स की गणना करें (n: उपयोगकर्ता / नमूने, m: पद / सुविधाएँ)
  • पदानुक्रमित क्लस्टरिंग के लिए दूरी मैट्रिक्स की गणना करें
  • एक लिंकेज विधि चुनें और पदानुक्रमित क्लस्टरिंग करें
  • डेटा को डेंड्रोग्राम के रूप में प्लॉट करें

मेरा सवाल यह है कि, मैं यह कैसे निर्धारित करूं कि सबसे अच्छी लिंकेज विधि क्या है? मैं वर्तमान में उपयोग कर रहा हूँ Wardलेकिन अगर मैं का उपयोग करना चाहिए मैं कैसे जानते हो single, complete, average, आदि?

मैं इस सामान के लिए बहुत नया हूँ, लेकिन मुझे एक स्पष्ट उत्तर ऑनलाइन नहीं मिल रहा है क्योंकि मुझे यकीन नहीं है कि एक है। तो मेरे आवेदन के लिए एक अच्छा विचार क्या हो सकता है? ध्यान दें कि डेटा इस मायने में अपेक्षाकृत विरल है कि n x mमैट्रिक्स में बहुत सारे शून्य हैं (ज्यादातर लोग कुछ पोस्ट से अधिक पर टिप्पणी नहीं करते हैं)।


विशिष्ट लिंकेज मुद्दे को अलग करते हुए, आपके संदर्भ में "सबसे अच्छा" क्या होगा?
गूँग - मोनिका

मेरे लिए सर्वश्रेष्ठ अपने तरह के डेटा को लिंक करने का सबसे तार्किक तरीका है। यानी: क्या दृष्टिकोण सटीक रूप से परिभाषित करता है कि मेरी सुविधाओं के भीतर "दूरी" से क्या मतलब है।
केविन

2
केविन, कृपया इस उत्तर और हाल के प्रश्न पर एक नज़र डालें । आप सीखेंगे कि आपके द्वारा उठाए जा रहे प्रश्न ("किस विधि का उपयोग करना है") आसान नहीं है। आपको निश्चित रूप से क्लस्टरिंग (कम से कम पदानुक्रमित) के बारे में साहित्य पढ़ना चाहिए इससे पहले कि आप तरीकों के बीच अंतर देख सकें और चुनने में सक्षम हो सकें। डेटा विश्लेषण को हाथ से व्यवहार नहीं किया जाना है।
ttnphns

1
@ttnphns, लिंक के लिए धन्यवाद - एक अच्छा पढ़ा था और मैं उन बिंदुओं पर विचार करूंगा।
केविन

जवाबों:


58

तरीके अवलोकन

के कुछ लिंकेज विधियों के बारे में संक्षिप्त संदर्भ पदानुक्रमित agglomerative क्लस्टर विश्लेषण (HAC) के ।

एचएसी एल्गोरिथ्म का मूल संस्करण एक सामान्य है; यह लांस-विलियम्स सूत्र के रूप में ज्ञात प्रत्येक चरण में, अद्यतन करने की मात्रा है, जो अब तक विद्यमान (दो विलय) क्लस्टर और सभी अन्य समूहों (सिंगलटन ऑब्जेक्ट्स सहित) के बीच की भविष्यवाणियां हैं। लांस-विलियम्स सूत्र का उपयोग नहीं करने वाले कार्यान्वयन मौजूद हैं। लेकिन इसका उपयोग करना सुविधाजनक है: यह एक कोड को विभिन्न देता है को एक ही टेम्पलेट द्वारा लिंकेज विधियों की

पुनरावृत्ति सूत्र में कई पैरामीटर (अल्फा, बीटा, गामा) शामिल हैं। लिंकेज विधि के आधार पर, मापदंडों को अलग तरीके से सेट किया जाता है और इसलिए अलिखित सूत्र एक विशिष्ट दृश्य प्राप्त करता है। एचएसी पर कई ग्रंथ सूत्र, इसकी विधि-विशिष्ट विचार दिखाते हैं और विधियों की व्याख्या करते हैं। मैं जैनोस पोडानी के लेखों को बहुत गहनता से सुझाऊंगा।

विभिन्न तरीकों के लिए कमरे और आवश्यकता इस तथ्य से उत्पन्न होती है कि दो समूहों के बीच या एक क्लस्टर और एक सिंगलटन ऑब्जेक्ट के बीच एक निकटता (दूरी या समानता) कई विभिन्न तरीकों से तैयार की जा सकती है। एचएसी प्रत्येक चरण में दो सबसे करीबी समूहों या बिंदुओं में विलीन हो जाती है, लेकिन चेहरे में पूर्वोक्त निकटता की गणना कैसे करें कि इनपुट निकटता मैट्रिक्स को केवल सिंगलटन ऑब्जेक्ट्स के बीच परिभाषित किया गया था, जो तैयार करना समस्या है।

इसलिए, हर चरण में किसी भी दो समूहों के बीच निकटता को कैसे परिभाषित किया जाए, इसके संबंध में विधियां भिन्न हैं। "कोलीगेशन गुणांक" (एग्लोमिनेशन शेड्यूल / इतिहास में आउटपुट और एक डेंड्रोग्राम पर "Y" अक्ष बनाना) बस दिए गए चरण में विलय किए गए दो समूहों के बीच निकटता है।

  • एकल लिंकेज या निकटतम पड़ोसी की विधि । दो समूहों के बीच निकटता उनकी दो निकटतम वस्तुओं के बीच निकटता है। यह मान इनपुट मैट्रिक्स के मूल्यों में से एक है। वैचारिक रूपक इस के समूह, अपने मूलरूप आदर्श, का निर्माण किया है स्पेक्ट्रम या श्रृंखला । चेन सीधे या घुमावदार हो सकते हैं, या "स्नोफ्लेक" या "अमीबा" दृश्य की तरह हो सकते हैं। दो सबसे अधिक समान की तुलना में दो सबसे भिन्न क्लस्टर सदस्य बहुत अधिक भिन्न हो सकते हैं। एकल लिंकेज विधि केवल निकटतम पड़ोसियों समानता को नियंत्रित करती है।

  • पूर्ण लिंकेज या दूर के पड़ोसी की विधि । दो समूहों के बीच निकटता उनकी दो सबसे दूर की वस्तुओं के बीच निकटता है। यह मान इनपुट मैट्रिक्स के मूल्यों में से एक है। इस बिल्ट ऑफ क्लस्टर का रूपक वृत्त (अर्थ में, शौक या कथानक से) है जहां एक दूसरे सदस्यों से दो सबसे दूर अन्य काफी भिन्न जोड़े (सर्कल के अनुसार) की तुलना में बहुत अधिक भिन्न नहीं हो सकते हैं। इस तरह के क्लस्टर अपनी सीमाओं के अनुसार "कॉम्पैक्ट" होते हैं, लेकिन जरूरी नहीं कि वे अंदर से कॉम्पैक्ट हों।

  • बीच-समूह औसत लिंकेज (UPGMA) की विधि । दो समूहों के बीच निकटता एक तरफ की वस्तुओं के बीच और दूसरी तरफ की वस्तुओं के बीच की सभी प्रमेयों का अंकगणितीय माध्य है। इस निर्मित क्लस्टर का रूपक काफी सामान्य है, बस एकजुट वर्ग या क्लोज-नाइट सामूहिक; और विधि अक्सर क्रमिक संकुल संकुल में डिफ़ॉल्ट एक सेट किया जाता है। विविध आकार और रूपरेखा के समूहों का उत्पादन किया जा सकता है।

  • साधारण औसत , या समूह-औसत औसत लिंकेज (WPGMA) के बीच संतुलन की विधि संशोधित पिछली है। दो समूहों के बीच निकटता एक तरफ की वस्तुओं, और दूसरी तरफ की वस्तुओं के बीच सभी प्रमेयों का अंकगणितीय माध्य है; जबकि उप-समूहों में से प्रत्येक में इन दो समूहों को मिला दिया गया था, हाल ही में उस निकटता पर समान प्रभाव पड़ा है - भले ही उप-समूह वस्तुओं की संख्या में भिन्न हो।

  • भीतर-समूह औसत लिंकेज (MNDIS) की विधि । दो समूहों के बीच निकटता उनके संयुक्त क्लस्टर में सभी प्राक्कलन का अंकगणितीय माध्य है। यह विधि UPGMA का एक विकल्प है। यह आमतौर पर क्लस्टर घनत्व के संदर्भ में इसे खो देगा, लेकिन कभी-कभी क्लस्टर आकृतियों को उजागर करेगा जो यूपीजीएमए नहीं करेगा।

  • सेंट्रोइड विधि (UPGMC)। दो समूहों के बीच निकटता उनके ज्यामितीय केन्द्रक के बीच निकटता है: [वर्ग] उन दोनों के बीच यूक्लिडियन दूरी। इस बिल्ट का उपमा मंच (राजनीति) की निकटता है । राजनीतिक दलों की तरह, इस तरह के समूहों में भिन्न या "गुट" हो सकते हैं, लेकिन जब तक कि उनके केंद्रीय आंकड़े एक-दूसरे से अलग नहीं होते हैं, संघ सुसंगत है। क्लस्टर रूपरेखा द्वारा विभिन्न हो सकते हैं।

  • माध्य , या equilibrious केन्द्रक विधि (WPGMC) संशोधित पिछले है। दो समूहों के बीच निकटता उनके ज्यामितीय केन्द्रक के बीच निकटता है ([चुकता] उन दोनों के बीच यूक्लिडियन दूरी); हालांकि केन्द्रक को परिभाषित किया जाता है, ताकि इन दोनों समूहों में से प्रत्येक के उप-समूहों को हाल ही में विलय कर दिया गया हो, जिसका प्रभाव इसके केंद्रक पर समान प्रभाव पड़ता है - भले ही उप-वर्ग वस्तुओं की संख्या में भिन्न हो।

  • एसएस12-(एसएस1+एसएस2)2 ।) इस बिल्ट का रूपक प्रकार का है

कम प्रसिद्ध तरीकों में से कुछ (देखें पोडनी जे। न्यू कॉम्बीनेटरियल क्लस्टरिंग विधियाँ // सब्ज़ी, 1989, 81, 61-77।) [मेरे द्वारा एसपीएसएस मैक्रो के रूप में मेरे वेब-पेज पर पाया गया]]

  • एसएस122

  • विचरण (MIVAR) की न्यूनतम वृद्धि की विधि । दो समूहों के बीच निकटता वह परिमाण है जिसके द्वारा उनके संयुक्त क्लस्टर में माध्य वर्ग भारित से अधिक होगा (वस्तुओं की संख्या से) इन दो समूहों में औसत वर्ग का औसत: एमएस12-(n1एमएस1+n2एमएस2)/(n1+n2)=[एसएस12-(एसएस1+एसएस2)]/(n1+n2)। (दो सिंगलटन ऑब्जेक्ट्स के बीच यह मात्रा = वर्गीय यूक्लिडियन दूरी /4।)

  • न्यूनतम विचरण (MNVAR) की विधि । दो समूहों के बीच निकटता उनके संयुक्त क्लस्टर में माध्य वर्ग है:एमएस12=एसएस12/(n1+n2)। (दो सिंगलटन ऑब्जेक्ट्स के बीच यह मात्रा = वर्गीय यूक्लिडियन दूरी /4।)।

पहले 5 तरीके किसी भी निकटता के उपायों (किसी भी समानता या दूरी) की अनुमति देते हैं और परिणाम स्वाभाविक रूप से, चुने हुए उपाय पर निर्भर करते हैं।

अंतिम 6 विधियों में दूरी की आवश्यकता होती है; और पूरी तरह से सही उनके साथ केवल चुकता यूक्लिडियन दूरी का उपयोग करना होगा, क्योंकि ये तरीके यूक्लिडियन अंतरिक्ष में सेंट्रोइड्स की गणना करते हैं। इसलिए ज्यामितीय शुद्धता के लिए दूरी को यूक्लिडियन होना चाहिए (इन 6 विधियों को एक साथ ज्यामितीय लिंकेज विधि कहा जाता है )। सबसे खराब स्थिति में, आप अन्य इनपुट कर सकते हैं मीट्रिकअधिक अनुमानी, कम कठोर विश्लेषण स्वीकार करने पर दूरियां। अब उस "वर्ग" के बारे में। सेंट्रोइड्स की गणना और उनसे विचलन सबसे सुविधाजनक गणितीय / प्रोग्रामिक रूप से चुकता दूरी पर प्रदर्शन करने के लिए हैं, यही कारण है कि एचएसी पैकेजों को आमतौर पर इनपुट की आवश्यकता होती है और वर्ग वाले को संसाधित करने के लिए ट्यून किया जाता है। हालांकि, वहाँ कार्यान्वयन मौजूद हैं - पूरी तरह से समतुल्य अभी तक थोड़ा धीमा - निरर्थक दूरी इनपुट के आधार पर और उन लोगों की आवश्यकता; उदाहरण के लिए देखें "वार्ड -2" वार्ड की विधि के लिए कार्यान्वयन। आपको यह जानने के लिए क्लस्टरिंग प्रोग्राम के दस्तावेज़ीकरण के साथ परामर्श करना चाहिए कि कौन सा - चुकता है या नहीं - यह सही करने के लिए एक "ज्यामितीय विधि" के इनपुट पर अपेक्षा करता है।

तरीकों MNDIS, MNSSQ, और MNVAR को लैंस-विलियम्स फॉर्मूले को अपडेट करने के अलावा, केवल एक क्लस्टर-स्टैटिस्टिक्स (जो विधि पर निर्भर करता है) को संग्रहीत करने के लिए, चरणों में आवश्यकता होती है।

वे विधियाँ जो अक्सर अध्ययन में उपयोग की जाती हैं जहाँ समूहों के ठोस या कम गोल बादलों के ठोस होने की उम्मीद की जाती है, - औसत लिंकेज, पूर्ण लिंकेज विधि और वार्ड की विधि के तरीके हैं।

वार्ड की विधि निकटतम है, इसके गुणों और दक्षता से, के-साधन क्लस्टरिंग के लिए; वे एक ही उद्देश्य समारोह को साझा करते हैं - "अंत में" क्लस्टर एसएस के भीतर जमाव का न्यूनतमकरण। बेशक, K- साधन (पुनरावृत्ति होना और यदि सभ्य प्रारंभिक सेंट्रोइड्स के साथ प्रदान किया जाता है) आमतौर पर वार्ड की तुलना में इसका एक बेहतर न्यूनतम है। हालांकि, वार्ड मुझे असमान भौतिक आकारों (variances) के समूहों को उजागर करने में K- साधनों की तुलना में थोड़ा अधिक सटीक लगता है या बहुत अनियमित रूप से अंतरिक्ष के बारे में फेंके गए क्लस्टर हैं। MIVAR विधि मेरे लिए अजीब है, मैं कल्पना नहीं कर सकता कि यह कब अनुशंसित हो सकता है, यह घने पर्याप्त समूहों का उत्पादन नहीं करता है।

तरीके केन्द्रक, मध्यक, विचरण की न्यूनतम वृद्धि - कभी-कभी तथाकथित उलटफेर दे सकती है : एक घटना जब दो समूहों को कुछ कदम पर विलय किया जाता है, जो पहले विलय किए गए समूहों के जोड़े की तुलना में एक दूसरे के करीब दिखाई देते हैं। ऐसा इसलिए है क्योंकि ये तरीके तथाकथित अल्ट्रामेट्रिक के नहीं हैं। यह स्थिति असुविधाजनक है लेकिन सैद्धांतिक रूप से ठीक है।

सिंगल लिंकेज और सेंट्रोइड के तरीके तथाकथित स्पेस कॉन्ट्रैक्टिंग या "चेनिंग" से संबंधित हैं। इसका मतलब है - मोटे तौर पर बोलना - कि वे वस्तुओं को एक-एक करके गुच्छों में बाँधते हैं, और इसलिए वे "क्लस्टर वस्तुओं का%" वक्र की अपेक्षाकृत चिकनी वृद्धि प्रदर्शित करते हैं। इसके विपरीत, पूर्ण लिंकेज के तरीके, वार्ड के, सम-वर्ग, विचरण की वृद्धि, और विचरण आमतौर पर आरंभिक चरणों पर भी वस्तुओं का काफी हिस्सा प्राप्त करते हैं, और फिर विलय अभी तक आगे बढ़ते हैं - इसलिए उनके वक्र "अव्यवस्थित वस्तुओं का%" है। “पहले कदम से खड़ी है। इन विधियों को स्पेस डिलेटिंग कहा जाता है । अन्य विधियाँ बीच-बीच में आती हैं।

लचीले संस्करण । लांस-विलियन सूत्र में अतिरिक्त पैरामीटर को जोड़कर एक विधि बनाने के लिए संभव है कि इसके चरणों पर विशेष रूप से आत्म-ट्यूनिंग हो। पैरामीटर क्लस्टर-निकटता के बीच गणना होने के लिए सुधार लाता है, जो क्लस्टर के आकार (डी-कॉम्पैक्टनेस की मात्रा) पर निर्भर करता है। पैरामीटर का अर्थ यह है कि यह एग्लोमरेशन की विधि को अधिक स्पेस फैलाता है या मानक विधि की तुलना में स्पेस कॉन्ट्रैक्टिंग होने के लिए बर्बाद होता है। लचीलेपन का अब तक का सबसे प्रसिद्ध कार्यान्वयन औसत लिंकेज विधियों यूपीजीएमए और डब्ल्यूपीजीएमए (बेलबिन, एल। एट अल। ए टू कम्पेरिजन ऑफ टू अप्रोच टू बीटा-फ्लेक्सिबल क्लस्टरिंग // मल्टीवीरेट बिहेवियर रिसर्च), 1992, 27, 417-433 है। )।

Dendrogram। डेंड्रोग्राम "वाई" अक्ष पर, आम तौर पर प्रदर्शित किया जाता है, जो विलय के समूहों के बीच निकटता है - जैसा कि ऊपर दिए गए तरीकों से परिभाषित किया गया है। इसलिए, उदाहरण के लिए, केन्द्रक विधि में चुकता दूरी को आमतौर पर देखा जाता है (अंततः, यह पैकेज पर निर्भर करता है और यह विकल्प) - कुछ शोधों के बारे में पता नहीं है। इसके अलावा, परंपरा के अनुसार, नॉनसेंसिटी के बढ़ने पर आधारित तरीके , जैसे कि वार्ड, आमतौर पर डेंड्रोग्राम पर दिखाए गए संचयी मूल्य है - यह सैद्धांतिक लोगों की तुलना में सुविधा कारणों के लिए जल्द ही है। इस प्रकार, (कई पैकेजों में) वार्ड की विधि में प्लॉट किया गया गुणांक सभी समूहों के कुल मिलाकर, एक दिए गए चरण के क्षण में देखे गए क्लस्टर सम-से-वर्गों को दर्शाता है।

अपने डेटा के लिए डेंड्रोग्राम्स के लुक की तुलना करते हुए कौन सी लिंकेज विधि "बेहतर" है, इसे पहचानने से बचना चाहिए: न केवल इसलिए कि जब आप बदलते हैं तो आप जिस गुणांक को संशोधित करते हैं, उसके अनुसार लुक बदल जाता है - जैसा कि यह सिर्फ वर्णन किया गया था, - लेकिन क्योंकि डेटा बिना किसी क्लस्टर के डेटा पर भी भिन्न होगा

"सही" विधि चुनने के लिए

कोई एक मापदंड नहीं है। क्लस्टर विश्लेषण की एक विधि (एक विशेष मामले के रूप में एचएसी में एक लिंकेज विधि सहित) का चयन करने के बारे में कुछ दिशानिर्देश इस उत्तर और पूरे धागे में उल्लिखित हैं ।


1

दूरी मैट्रिक्स और कोपेनहेनेटिक दूरी के बीच सहसंबंध एक मीट्रिक है जो यह आकलन करने में मदद करता है कि किस कड़ी का चयन करना है। से ?cophenetic:

यह तर्क दिया जा सकता है कि एक डेंड्रोग्राम कुछ डेटा का एक उपयुक्त सारांश है यदि मूल दूरी और कोपनेटिक दूरी के बीच संबंध अधिक है।

cor(dist,cophenetic(hclust(dist)))लिंकेज चयन मीट्रिक के इस उपयोग को इस vegan विगनेट के पृष्ठ 38 में संदर्भित किया गया है ।

नीचे उदाहरण कोड देखें:

# Data
d0=dist(USArrests)

# Hierarchical Agglomerative Clustering
h1=hclust(d0,method='average')
h2=hclust(d0,method='complete')
h3=hclust(d0,method='ward.D')
h4=hclust(d0,method='single')

# Cophenetic Distances, for each linkage
c1=cophenetic(h1)
c2=cophenetic(h2)
c3=cophenetic(h3)
c4=cophenetic(h4)

# Correlations
cor(d0,c1) # 0.7658983
cor(d0,c2) # 0.7636926
cor(d0,c3) # 0.7553367
cor(d0,c4) # 0.5702505

# Dendograms
par(mfrow=c(2,2))
plot(h1,main='Average Linkage')
plot(h2,main='Complete Linkage')
plot(h3,main='Ward Linkage')
plot(h4,main='Single Linkage')
par(mfrow=c(1,1))

हम देखते हैं कि के लिए सह-संबंध averageऔर completeअत्यंत समान हैं, और उनके dendograms बहुत समान दिखाई देते हैं। के लिए सहसंबंध wardसमान है averageऔर completeलेकिन डेंडोग्राम काफी अलग दिखता है। singleलिंकेज अपनी बात कर रहा है। विषय वस्तु विशेषज्ञ से सर्वश्रेष्ठ पेशेवर निर्णय, या ब्याज के क्षेत्र में एक निश्चित लिंक की ओर पूर्ववर्ती स्थिति से संभवतः संख्यात्मक आउटपुट को ओवरराइड करना चाहिए cor()

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.