मेरी राय में, बहुत बड़े अंतर हैं। रैंड इंडेक्स क्लस्टर के दाने से प्रभावित होता है, जिस पर यह संचालित होता है। इस प्रकार मैं मिरकिन दूरी का उपयोग करूँगा, जो रैंड इंडेक्स का एक समायोजित रूप है (देखने में आसान है, लेकिन उदाहरण के लिए मीला देखें)। मैं स्प्लिट / जॉइन डिस्टेंस का भी उपयोग करूँगा, जिसका उल्लेख मीला के कुछ पत्रों में भी किया गया है (अस्वीकरण: स्प्लिट / जॉइन दूरी मेरे लिए प्रस्तावित की गई थी)। मान लीजिए कि एक सौ तत्वों का एक ब्रह्मांड है। मैं सभी तत्वों से युक्त एकल क्लस्टर के साथ क्लस्टर को निरूपित करने के लिए शीर्ष का उपयोग करूँगा, नीचे क्लस्टरिंग को निरूपित करने के लिए जहां सभी नोड्स अलग-अलग सिंगलटन सेट में हैं, बाएं क्लस्टरिंग को निरूपित करने के लिए {{1,2, .. 10}, {11, 12..20}, {21,22..30}, ..., {91,92, .. 100}} , और क्लस्टर {{1,11, .. 91}, {2} को निरूपित करने का अधिकार । 12, .. 92}, {3,13, .. 93}, ..., {10,20, .. 100}}।
मेरे दिमाग में, बॉटम और टॉप सुसंगत (नेस्टिंग) क्लस्टर हैं, जबकि लेफ्ट और राइट अधिकतम परस्पर विरोधी क्लस्टर हैं। इन दो जोड़ीदार तुलनाओं के लिए उल्लेखित मैट्रिक्स से दूरी इस प्रकार है:
Top-Bottom Left-Right
Mirkin 9900 1800
VI 4.605 4.605
Split/join 99 180
यह इस प्रकार है कि मिरकिन / रैंड लगातार टॉप-बॉटम पेयर पर विचार करते हैं, जो कि मैक्सिमली कंट्रोवर्सी के अलावा लेफ्ट-राईट पेयर है। इस बिंदु का वर्णन करने के लिए यह एक चरम उदाहरण है, लेकिन मिर्किन / रैंड सामान्य रूप से क्लस्टरिंग की ग्रैन्युलैरिटी से बहुत अधिक प्रभावित होते हैं, जिस पर यह संचालित होता है। अंतर्निहित कारण इस मीट्रिक और क्लस्टर आकारों के बीच एक द्विघात संबंध है, इस तथ्य से समझाया गया है कि नोड्स के जोड़े की गिनती शामिल है। वास्तव में, मिरकिन दूरी क्लस्टरिंग से प्रेरित पूर्ण रेखांकन के यूनियनों के किनारे सेट के बीच एक हैमिंग दूरी है (यह आपके विचार का जवाब है जो मुझे लगता है)।
सूचना और विभाजन / जुड़ाव की भिन्नता के बीच अंतर के बारे में, पहला कुछ संघर्ष स्थितियों के लिए अधिक संवेदनशील है जैसा कि मीला द्वारा प्रदर्शित किया गया है। यही है, स्प्लिट / जॉइन केवल प्रत्येक क्लस्टर के लिए सबसे अच्छा मैच मानता है, और उस क्लस्टर के शेष भाग पर होने वाले विखंडन की अवहेलना करता है, जबकि सूचना का भिन्नता इसे उठाएगा। उस ने कहा, स्प्लिट / जॉइन आसानी से व्याख्या योग्य है क्योंकि नोड्स की संख्या को दूसरे से एक क्लस्टर प्राप्त करने के लिए स्थानांतरित करने की आवश्यकता होती है , और इस अर्थ में इसकी सीमा अधिक आसानी से समझ में आती है; व्यवहार में विखंडन मुद्दा भी आम नहीं हो सकता है।
इनमें से प्रत्येक मेट्रिक्स को दो दूरियों के योग के रूप में बनाया जा सकता है, अर्थात् दो क्लस्टर में से प्रत्येक से उनकी सबसे बड़ी सामान्य उप-दूरी तक दूरी। मुझे लगता है कि यह केवल उनके योग के बजाय उन अलग हिस्सों के साथ काम करने के लिए फायदेमंद है। उपरोक्त तालिका फिर बन जाती है:
Top-Bottom Left-Right
Mirkin 0,9900 900,900
VI 0,4.605 2.303,2.303
Split/join 0,99 90,90
टॉप और बॉटम के बीच का निर्वाह संबंध तुरंत स्पष्ट हो जाता है। यह जानना काफी उपयोगी है कि क्या दो क्लस्टरिंग सुसंगत हैं (यानी एक (लगभग) दूसरे का एक उप-वर्ग है) इस प्रश्न के विश्राम के रूप में कि क्या वे पास हैं । एक क्लस्टरिंग एक स्वर्ण मानक से काफी दूर हो सकता है, लेकिन अभी भी लगातार या लगभग सुसंगत हो सकता है। ऐसे मामले में उस सोने के मानक के संबंध में क्लस्टरिंग खराब पर विचार करने का कोई कारण नहीं हो सकता है। बेशक, तुच्छ क्लस्टरिंग टॉप एंड बॉटम किसी भी क्लस्टरिंग के अनुरूप होगा , इसलिए इसे ध्यान में रखा जाना चाहिए।
अंत में, मेरा मानना है कि क्लीयरिंग की तुलना करने के लिए मीरकिन, सूचना का भिन्नता और स्प्लिट / जॉइन जैसे मैट्रिक्स प्राकृतिक उपकरण हैं। अधिकांश अनुप्रयोगों के तरीकों के लिए जो सांख्यिकीय स्वतंत्रता को शामिल करने का प्रयास करते हैं और संयोग के लिए सही होते हैं, स्पष्ट रूप से स्पष्ट होने के बजाय अत्यधिक विपरीत और मोटे होते हैं।
दूसरा उदाहरण
क्लस्टरिंग के निम्नलिखित युग्मों पर विचार करें:
C1 = {1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16}} C2 के साथ = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}}
और
C3 = {{1, 2, 3, 4}, {5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}} के साथ {{1, 2, 3 , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}}
यहाँ C2 को C1 से 9 और 10 को स्थानांतरित करके C3 से बनाया जा सकता है और C3 को 11 और 12 को स्थानांतरित करके C3 से बनाया जा सकता है । दोनों परिवर्तन समान हैं ("दो नोड को स्थानांतरित करें") इस तथ्य को छोड़कर कि इसमें शामिल समूहों के आकार भिन्न होते हैं । इन दो उदाहरणों के लिए क्लस्टरिंग तालिका यह है:
C1-C2 C3-C4
Mirkin 56 40
VI 0.594 0.520
Split/Join 4 4
यह देखा जा सकता है कि जानकारी का मिरकिन / रैंड और भिन्नता क्लस्टर आकार (और मिरकिन से काफी हद तक प्रभावित होता है; यह क्लस्टर आकार में परिवर्तन के रूप में अधिक स्पष्ट होगा), जबकि स्प्लिट / जॉइन दूरी नहीं है (इसका मान 4 है) के रूप में यह "चलता है" नोड्स को एक क्लस्टरिंग से दूसरे तक हमेशा सबसे बड़े सामान्य उपक्लेरिंग के माध्यम से)। यह परिस्थितियों के आधार पर एक वांछनीय लक्षण हो सकता है। स्प्लिट / जॉइन (स्थानांतरित करने के लिए नोड्स की संख्या) की सरल व्याख्या और क्लस्टर आकार की इसकी स्वतंत्रता के बारे में पता होने के लायक है। मिरकिन और सूचना के भिन्नता के बीच मुझे लगता है कि उत्तरार्द्ध बहुत बेहतर है।