तरीके अवलोकन
के कुछ लिंकेज विधियों के बारे में संक्षिप्त संदर्भ पदानुक्रमित agglomerative क्लस्टर विश्लेषण (HAC) के ।
एचएसी एल्गोरिथ्म का मूल संस्करण एक सामान्य है; यह लांस-विलियम्स सूत्र के रूप में ज्ञात प्रत्येक चरण में, अद्यतन करने की मात्रा है, जो अब तक विद्यमान (दो विलय) क्लस्टर और सभी अन्य समूहों (सिंगलटन ऑब्जेक्ट्स सहित) के बीच की भविष्यवाणियां हैं। लांस-विलियम्स सूत्र का उपयोग नहीं करने वाले कार्यान्वयन मौजूद हैं। लेकिन इसका उपयोग करना सुविधाजनक है: यह एक कोड को विभिन्न देता है को एक ही टेम्पलेट द्वारा लिंकेज विधियों की ।
पुनरावृत्ति सूत्र में कई पैरामीटर (अल्फा, बीटा, गामा) शामिल हैं। लिंकेज विधि के आधार पर, मापदंडों को अलग तरीके से सेट किया जाता है और इसलिए अलिखित सूत्र एक विशिष्ट दृश्य प्राप्त करता है। एचएसी पर कई ग्रंथ सूत्र, इसकी विधि-विशिष्ट विचार दिखाते हैं और विधियों की व्याख्या करते हैं। मैं जैनोस पोडानी के लेखों को बहुत गहनता से सुझाऊंगा।
विभिन्न तरीकों के लिए कमरे और आवश्यकता इस तथ्य से उत्पन्न होती है कि दो समूहों के बीच या एक क्लस्टर और एक सिंगलटन ऑब्जेक्ट के बीच एक निकटता (दूरी या समानता) कई विभिन्न तरीकों से तैयार की जा सकती है। एचएसी प्रत्येक चरण में दो सबसे करीबी समूहों या बिंदुओं में विलीन हो जाती है, लेकिन चेहरे में पूर्वोक्त निकटता की गणना कैसे करें कि इनपुट निकटता मैट्रिक्स को केवल सिंगलटन ऑब्जेक्ट्स के बीच परिभाषित किया गया था, जो तैयार करना समस्या है।
इसलिए, हर चरण में किसी भी दो समूहों के बीच निकटता को कैसे परिभाषित किया जाए, इसके संबंध में विधियां भिन्न हैं। "कोलीगेशन गुणांक" (एग्लोमिनेशन शेड्यूल / इतिहास में आउटपुट और एक डेंड्रोग्राम पर "Y" अक्ष बनाना) बस दिए गए चरण में विलय किए गए दो समूहों के बीच निकटता है।
एकल लिंकेज या निकटतम पड़ोसी की विधि । दो समूहों के बीच निकटता उनकी दो निकटतम वस्तुओं के बीच निकटता है। यह मान इनपुट मैट्रिक्स के मूल्यों में से एक है। वैचारिक रूपक इस के समूह, अपने मूलरूप आदर्श, का निर्माण किया है स्पेक्ट्रम या श्रृंखला । चेन सीधे या घुमावदार हो सकते हैं, या "स्नोफ्लेक" या "अमीबा" दृश्य की तरह हो सकते हैं। दो सबसे अधिक समान की तुलना में दो सबसे भिन्न क्लस्टर सदस्य बहुत अधिक भिन्न हो सकते हैं। एकल लिंकेज विधि केवल निकटतम पड़ोसियों समानता को नियंत्रित करती है।
पूर्ण लिंकेज या दूर के पड़ोसी की विधि । दो समूहों के बीच निकटता उनकी दो सबसे दूर की वस्तुओं के बीच निकटता है। यह मान इनपुट मैट्रिक्स के मूल्यों में से एक है। इस बिल्ट ऑफ क्लस्टर का रूपक वृत्त (अर्थ में, शौक या कथानक से) है जहां एक दूसरे सदस्यों से दो सबसे दूर अन्य काफी भिन्न जोड़े (सर्कल के अनुसार) की तुलना में बहुत अधिक भिन्न नहीं हो सकते हैं। इस तरह के क्लस्टर अपनी सीमाओं के अनुसार "कॉम्पैक्ट" होते हैं, लेकिन जरूरी नहीं कि वे अंदर से कॉम्पैक्ट हों।
बीच-समूह औसत लिंकेज (UPGMA) की विधि । दो समूहों के बीच निकटता एक तरफ की वस्तुओं के बीच और दूसरी तरफ की वस्तुओं के बीच की सभी प्रमेयों का अंकगणितीय माध्य है। इस निर्मित क्लस्टर का रूपक काफी सामान्य है, बस एकजुट वर्ग या क्लोज-नाइट सामूहिक; और विधि अक्सर क्रमिक संकुल संकुल में डिफ़ॉल्ट एक सेट किया जाता है। विविध आकार और रूपरेखा के समूहों का उत्पादन किया जा सकता है।
साधारण औसत , या समूह-औसत औसत लिंकेज (WPGMA) के बीच संतुलन की विधि संशोधित पिछली है। दो समूहों के बीच निकटता एक तरफ की वस्तुओं, और दूसरी तरफ की वस्तुओं के बीच सभी प्रमेयों का अंकगणितीय माध्य है; जबकि उप-समूहों में से प्रत्येक में इन दो समूहों को मिला दिया गया था, हाल ही में उस निकटता पर समान प्रभाव पड़ा है - भले ही उप-समूह वस्तुओं की संख्या में भिन्न हो।
भीतर-समूह औसत लिंकेज (MNDIS) की विधि । दो समूहों के बीच निकटता उनके संयुक्त क्लस्टर में सभी प्राक्कलन का अंकगणितीय माध्य है। यह विधि UPGMA का एक विकल्प है। यह आमतौर पर क्लस्टर घनत्व के संदर्भ में इसे खो देगा, लेकिन कभी-कभी क्लस्टर आकृतियों को उजागर करेगा जो यूपीजीएमए नहीं करेगा।
सेंट्रोइड विधि (UPGMC)। दो समूहों के बीच निकटता उनके ज्यामितीय केन्द्रक के बीच निकटता है: [वर्ग] उन दोनों के बीच यूक्लिडियन दूरी। इस बिल्ट का उपमा मंच (राजनीति) की निकटता है । राजनीतिक दलों की तरह, इस तरह के समूहों में भिन्न या "गुट" हो सकते हैं, लेकिन जब तक कि उनके केंद्रीय आंकड़े एक-दूसरे से अलग नहीं होते हैं, संघ सुसंगत है। क्लस्टर रूपरेखा द्वारा विभिन्न हो सकते हैं।
माध्य , या equilibrious केन्द्रक विधि (WPGMC) संशोधित पिछले है। दो समूहों के बीच निकटता उनके ज्यामितीय केन्द्रक के बीच निकटता है ([चुकता] उन दोनों के बीच यूक्लिडियन दूरी); हालांकि केन्द्रक को परिभाषित किया जाता है, ताकि इन दोनों समूहों में से प्रत्येक के उप-समूहों को हाल ही में विलय कर दिया गया हो, जिसका प्रभाव इसके केंद्रक पर समान प्रभाव पड़ता है - भले ही उप-वर्ग वस्तुओं की संख्या में भिन्न हो।
एसएस12- - ( एस)एस1+ एसएस2)2 ।) इस बिल्ट का रूपक प्रकार का है
कम प्रसिद्ध तरीकों में से कुछ (देखें पोडनी जे। न्यू कॉम्बीनेटरियल क्लस्टरिंग विधियाँ // सब्ज़ी, 1989, 81, 61-77।) [मेरे द्वारा एसपीएसएस मैक्रो के रूप में मेरे वेब-पेज पर पाया गया]]
एसएस122
विचरण (MIVAR) की न्यूनतम वृद्धि की विधि । दो समूहों के बीच निकटता वह परिमाण है जिसके द्वारा उनके संयुक्त क्लस्टर में माध्य वर्ग भारित से अधिक होगा (वस्तुओं की संख्या से) इन दो समूहों में औसत वर्ग का औसत:
एमएस12- - ( एन1एमएस1+ एन2एमएस2) / ( एन1+ एन2) = [ एसएस12- - ( एस)एस1+ एसएस2) ] / ( एन1+ एन2)। (दो सिंगलटन ऑब्जेक्ट्स के बीच यह मात्रा = वर्गीय यूक्लिडियन दूरी /4।)
न्यूनतम विचरण (MNVAR) की विधि । दो समूहों के बीच निकटता उनके संयुक्त क्लस्टर में माध्य वर्ग है:एमएस12= एसएस12/ ( एन1+ एन2)। (दो सिंगलटन ऑब्जेक्ट्स के बीच यह मात्रा = वर्गीय यूक्लिडियन दूरी /4।)।
पहले 5 तरीके किसी भी निकटता के उपायों (किसी भी समानता या दूरी) की अनुमति देते हैं और परिणाम स्वाभाविक रूप से, चुने हुए उपाय पर निर्भर करते हैं।
अंतिम 6 विधियों में दूरी की आवश्यकता होती है; और पूरी तरह से सही उनके साथ केवल चुकता यूक्लिडियन दूरी का उपयोग करना होगा, क्योंकि ये तरीके यूक्लिडियन अंतरिक्ष में सेंट्रोइड्स की गणना करते हैं। इसलिए ज्यामितीय शुद्धता के लिए दूरी को यूक्लिडियन होना चाहिए (इन 6 विधियों को एक साथ ज्यामितीय लिंकेज विधि कहा जाता है )। सबसे खराब स्थिति में, आप अन्य इनपुट कर सकते हैं मीट्रिकअधिक अनुमानी, कम कठोर विश्लेषण स्वीकार करने पर दूरियां। अब उस "वर्ग" के बारे में। सेंट्रोइड्स की गणना और उनसे विचलन सबसे सुविधाजनक गणितीय / प्रोग्रामिक रूप से चुकता दूरी पर प्रदर्शन करने के लिए हैं, यही कारण है कि एचएसी पैकेजों को आमतौर पर इनपुट की आवश्यकता होती है और वर्ग वाले को संसाधित करने के लिए ट्यून किया जाता है। हालांकि, वहाँ कार्यान्वयन मौजूद हैं - पूरी तरह से समतुल्य अभी तक थोड़ा धीमा - निरर्थक दूरी इनपुट के आधार पर और उन लोगों की आवश्यकता; उदाहरण के लिए देखें "वार्ड -2" वार्ड की विधि के लिए कार्यान्वयन। आपको यह जानने के लिए क्लस्टरिंग प्रोग्राम के दस्तावेज़ीकरण के साथ परामर्श करना चाहिए कि कौन सा - चुकता है या नहीं - यह सही करने के लिए एक "ज्यामितीय विधि" के इनपुट पर अपेक्षा करता है।
तरीकों MNDIS, MNSSQ, और MNVAR को लैंस-विलियम्स फॉर्मूले को अपडेट करने के अलावा, केवल एक क्लस्टर-स्टैटिस्टिक्स (जो विधि पर निर्भर करता है) को संग्रहीत करने के लिए, चरणों में आवश्यकता होती है।
वे विधियाँ जो अक्सर अध्ययन में उपयोग की जाती हैं जहाँ समूहों के ठोस या कम गोल बादलों के ठोस होने की उम्मीद की जाती है, - औसत लिंकेज, पूर्ण लिंकेज विधि और वार्ड की विधि के तरीके हैं।
वार्ड की विधि निकटतम है, इसके गुणों और दक्षता से, के-साधन क्लस्टरिंग के लिए; वे एक ही उद्देश्य समारोह को साझा करते हैं - "अंत में" क्लस्टर एसएस के भीतर जमाव का न्यूनतमकरण। बेशक, K- साधन (पुनरावृत्ति होना और यदि सभ्य प्रारंभिक सेंट्रोइड्स के साथ प्रदान किया जाता है) आमतौर पर वार्ड की तुलना में इसका एक बेहतर न्यूनतम है। हालांकि, वार्ड मुझे असमान भौतिक आकारों (variances) के समूहों को उजागर करने में K- साधनों की तुलना में थोड़ा अधिक सटीक लगता है या बहुत अनियमित रूप से अंतरिक्ष के बारे में फेंके गए क्लस्टर हैं। MIVAR विधि मेरे लिए अजीब है, मैं कल्पना नहीं कर सकता कि यह कब अनुशंसित हो सकता है, यह घने पर्याप्त समूहों का उत्पादन नहीं करता है।
तरीके केन्द्रक, मध्यक, विचरण की न्यूनतम वृद्धि - कभी-कभी तथाकथित उलटफेर दे सकती है : एक घटना जब दो समूहों को कुछ कदम पर विलय किया जाता है, जो पहले विलय किए गए समूहों के जोड़े की तुलना में एक दूसरे के करीब दिखाई देते हैं। ऐसा इसलिए है क्योंकि ये तरीके तथाकथित अल्ट्रामेट्रिक के नहीं हैं। यह स्थिति असुविधाजनक है लेकिन सैद्धांतिक रूप से ठीक है।
सिंगल लिंकेज और सेंट्रोइड के तरीके तथाकथित स्पेस कॉन्ट्रैक्टिंग या "चेनिंग" से संबंधित हैं। इसका मतलब है - मोटे तौर पर बोलना - कि वे वस्तुओं को एक-एक करके गुच्छों में बाँधते हैं, और इसलिए वे "क्लस्टर वस्तुओं का%" वक्र की अपेक्षाकृत चिकनी वृद्धि प्रदर्शित करते हैं। इसके विपरीत, पूर्ण लिंकेज के तरीके, वार्ड के, सम-वर्ग, विचरण की वृद्धि, और विचरण आमतौर पर आरंभिक चरणों पर भी वस्तुओं का काफी हिस्सा प्राप्त करते हैं, और फिर विलय अभी तक आगे बढ़ते हैं - इसलिए उनके वक्र "अव्यवस्थित वस्तुओं का%" है। “पहले कदम से खड़ी है। इन विधियों को स्पेस डिलेटिंग कहा जाता है । अन्य विधियाँ बीच-बीच में आती हैं।
लचीले संस्करण । लांस-विलियन सूत्र में अतिरिक्त पैरामीटर को जोड़कर एक विधि बनाने के लिए संभव है कि इसके चरणों पर विशेष रूप से आत्म-ट्यूनिंग हो। पैरामीटर क्लस्टर-निकटता के बीच गणना होने के लिए सुधार लाता है, जो क्लस्टर के आकार (डी-कॉम्पैक्टनेस की मात्रा) पर निर्भर करता है। पैरामीटर का अर्थ यह है कि यह एग्लोमरेशन की विधि को अधिक स्पेस फैलाता है या मानक विधि की तुलना में स्पेस कॉन्ट्रैक्टिंग होने के लिए बर्बाद होता है। लचीलेपन का अब तक का सबसे प्रसिद्ध कार्यान्वयन औसत लिंकेज विधियों यूपीजीएमए और डब्ल्यूपीजीएमए (बेलबिन, एल। एट अल। ए टू कम्पेरिजन ऑफ टू अप्रोच टू बीटा-फ्लेक्सिबल क्लस्टरिंग // मल्टीवीरेट बिहेवियर रिसर्च), 1992, 27, 417-433 है। )।
Dendrogram। डेंड्रोग्राम "वाई" अक्ष पर, आम तौर पर प्रदर्शित किया जाता है, जो विलय के समूहों के बीच निकटता है - जैसा कि ऊपर दिए गए तरीकों से परिभाषित किया गया है। इसलिए, उदाहरण के लिए, केन्द्रक विधि में चुकता दूरी को आमतौर पर देखा जाता है (अंततः, यह पैकेज पर निर्भर करता है और यह विकल्प) - कुछ शोधों के बारे में पता नहीं है। इसके अलावा, परंपरा के अनुसार, नॉनसेंसिटी के बढ़ने पर आधारित तरीके , जैसे कि वार्ड, आमतौर पर डेंड्रोग्राम पर दिखाए गए संचयी मूल्य है - यह सैद्धांतिक लोगों की तुलना में सुविधा कारणों के लिए जल्द ही है। इस प्रकार, (कई पैकेजों में) वार्ड की विधि में प्लॉट किया गया गुणांक सभी समूहों के कुल मिलाकर, एक दिए गए चरण के क्षण में देखे गए क्लस्टर सम-से-वर्गों को दर्शाता है।
अपने डेटा के लिए डेंड्रोग्राम्स के लुक की तुलना करते हुए कौन सी लिंकेज विधि "बेहतर" है, इसे पहचानने से बचना चाहिए: न केवल इसलिए कि जब आप बदलते हैं तो आप जिस गुणांक को संशोधित करते हैं, उसके अनुसार लुक बदल जाता है - जैसा कि यह सिर्फ वर्णन किया गया था, - लेकिन क्योंकि डेटा बिना किसी क्लस्टर के डेटा पर भी भिन्न होगा ।
"सही" विधि चुनने के लिए
कोई एक मापदंड नहीं है। क्लस्टर विश्लेषण की एक विधि (एक विशेष मामले के रूप में एचएसी में एक लिंकेज विधि सहित) का चयन करने के बारे में कुछ दिशानिर्देश इस उत्तर और पूरे धागे में उल्लिखित हैं ।