तुलना क्लस्टरिंग: रैंड इंडेक्स बनाम सूचना का विविधता


21

मैं सोच रहा था कि क्या किसी के पास क्लस्टरिंग की तुलना के लिए सूचना और विविधता सूचकांक के अंतर के पीछे कोई अंतर्दृष्टि या अंतर्ज्ञान है।

मैंने मरीना मेलिया (जर्नल ऑफ़ मल्टीवेरेट एनालिसिस, 2007) द्वारा पेपर " कम्पेयरिंग कलस्टरिंग - एन इंफॉर्मेशन बेस्ड डिस्टेंस " पढ़ा है , लेकिन, परिभाषाओं में अंतर को नोटिस करने के अलावा, मुझे समझ में नहीं आया कि यह क्या है कि सूचनाओं की भिन्नता कैप्चर करता है कि रैंड इंडेक्स कैप्चर नहीं करता है।

जवाबों:


8

दोनों विधियों के बीच का अंतर सूक्ष्म है। इसके बारे में सोचने का सबसे अच्छा तरीका क्लस्टरिंग पर मर्ज-विभाजन ऑपरेशन द्वारा परिभाषित जाली पर विचार करना है। इन दोनों उपायों को एक क्लस्टरिंग पर एक फ़ंक्शन को परिभाषित करके और फिर सूत्र द्वारा दो क्लस्टरिंग के बीच की दूरी को परिभाषित करके फिर से बनाया जा सकता है:

जहां सी सी ' है जाली में दो clusterings के शामिल हो।

(सी,सी')=(सी)+(सी')-2(सीसी')
सीसी'

अब और let n i = | C i | । स्थापना ( सी ) = Σ एन 2 मैं पैदावार रैंड सूचकांक, और स्थापित करने के ( सी ) = Σ n मैं लॉग इन करें n मैं छठी अर्जित करता है।सी={सी1,सी2,...,सीकश्मीर}nमैं=|सीमैं|(सी)=Σnमैं2(सी)=Σnमैंलॉगnमैं


धन्यवाद सुरेश! क्या आप जानते हैं कि (और कैसे) इन फॉर्मूलों में अंतर बताता है कि क्यों अलग-अलग क्लस्टर के बीच रैंड इंडेक्स और सूचना की भिन्नता निरंतरता को नियंत्रित करती है (क्लस्टरिंग का एक हिस्सा दूसरे का कितना बड़ा हिस्सा है)? (माइकन्स के अनुसार)
एमिलियो

2
जैसा कि माइक बताते हैं, रैंड इंडेक्स में द्विघात व्यवहार होता है, इसलिए यह एन्ट्रापी फ़ंक्शन की तुलना में बदलाव के प्रति अधिक संवेदनशील है, जो रैखिक के करीब है।
सुरेश वेंकटसुब्रमण्यम

क्षमा करें, लेकिन मैं अभी भी यह नहीं देखता कि कैसे क्लस्टरिंग के बीच अन्य प्रकार की विसंगतियों की तुलना में समसामयिक द्विघात प्रभाव को प्रभावित करता है। क्या आप इस पर थोड़ा और विस्तार से विचार करेंगे?
एमिलियो वाज़केज़-रीना

@ user023472 नमस्कार user023472 मुझे आपके निष्कर्षों में दिलचस्पी है, आपने कुछ समय पहले यह सवाल पूछा था। क्या आपने सीखा है कि वास्तव में दो तरीकों के बीच अंतर क्या है? धन्यवाद।
क्रिएट्रन

14

मेरी राय में, बहुत बड़े अंतर हैं। रैंड इंडेक्स क्लस्टर के दाने से प्रभावित होता है, जिस पर यह संचालित होता है। इस प्रकार मैं मिरकिन दूरी का उपयोग करूँगा, जो रैंड इंडेक्स का एक समायोजित रूप है (देखने में आसान है, लेकिन उदाहरण के लिए मीला देखें)। मैं स्प्लिट / जॉइन डिस्टेंस का भी उपयोग करूँगा, जिसका उल्लेख मीला के कुछ पत्रों में भी किया गया है (अस्वीकरण: स्प्लिट / जॉइन दूरी मेरे लिए प्रस्तावित की गई थी)। मान लीजिए कि एक सौ तत्वों का एक ब्रह्मांड है। मैं सभी तत्वों से युक्त एकल क्लस्टर के साथ क्लस्टर को निरूपित करने के लिए शीर्ष का उपयोग करूँगा, नीचे क्लस्टरिंग को निरूपित करने के लिए जहां सभी नोड्स अलग-अलग सिंगलटन सेट में हैं, बाएं क्लस्टरिंग को निरूपित करने के लिए {{1,2, .. 10}, {11, 12..20}, {21,22..30}, ..., {91,92, .. 100}} , और क्लस्टर {{1,11, .. 91}, {2} को निरूपित करने का अधिकार । 12, .. 92}, {3,13, .. 93}, ..., {10,20, .. 100}}

मेरे दिमाग में, बॉटम और टॉप सुसंगत (नेस्टिंग) क्लस्टर हैं, जबकि लेफ्ट और राइट अधिकतम परस्पर विरोधी क्लस्टर हैं। इन दो जोड़ीदार तुलनाओं के लिए उल्लेखित मैट्रिक्स से दूरी इस प्रकार है:

               Top-Bottom     Left-Right 

Mirkin            9900          1800
VI                4.605         4.605
Split/join        99            180

यह इस प्रकार है कि मिरकिन / रैंड लगातार टॉप-बॉटम पेयर पर विचार करते हैं, जो कि मैक्सिमली कंट्रोवर्सी के अलावा लेफ्ट-राईट पेयर है। इस बिंदु का वर्णन करने के लिए यह एक चरम उदाहरण है, लेकिन मिर्किन / रैंड सामान्य रूप से क्लस्टरिंग की ग्रैन्युलैरिटी से बहुत अधिक प्रभावित होते हैं, जिस पर यह संचालित होता है। अंतर्निहित कारण इस मीट्रिक और क्लस्टर आकारों के बीच एक द्विघात संबंध है, इस तथ्य से समझाया गया है कि नोड्स के जोड़े की गिनती शामिल है। वास्तव में, मिरकिन दूरी क्लस्टरिंग से प्रेरित पूर्ण रेखांकन के यूनियनों के किनारे सेट के बीच एक हैमिंग दूरी है (यह आपके विचार का जवाब है जो मुझे लगता है)।

सूचना और विभाजन / जुड़ाव की भिन्नता के बीच अंतर के बारे में, पहला कुछ संघर्ष स्थितियों के लिए अधिक संवेदनशील है जैसा कि मीला द्वारा प्रदर्शित किया गया है। यही है, स्प्लिट / जॉइन केवल प्रत्येक क्लस्टर के लिए सबसे अच्छा मैच मानता है, और उस क्लस्टर के शेष भाग पर होने वाले विखंडन की अवहेलना करता है, जबकि सूचना का भिन्नता इसे उठाएगा। उस ने कहा, स्प्लिट / जॉइन आसानी से व्याख्या योग्य है क्योंकि नोड्स की संख्या को दूसरे से एक क्लस्टर प्राप्त करने के लिए स्थानांतरित करने की आवश्यकता होती है , और इस अर्थ में इसकी सीमा अधिक आसानी से समझ में आती है; व्यवहार में विखंडन मुद्दा भी आम नहीं हो सकता है।

इनमें से प्रत्येक मेट्रिक्स को दो दूरियों के योग के रूप में बनाया जा सकता है, अर्थात् दो क्लस्टर में से प्रत्येक से उनकी सबसे बड़ी सामान्य उप-दूरी तक दूरी। मुझे लगता है कि यह केवल उनके योग के बजाय उन अलग हिस्सों के साथ काम करने के लिए फायदेमंद है। उपरोक्त तालिका फिर बन जाती है:

               Top-Bottom     Left-Right 

Mirkin          0,9900          900,900
VI              0,4.605       2.303,2.303
Split/join      0,99             90,90

टॉप और बॉटम के बीच का निर्वाह संबंध तुरंत स्पष्ट हो जाता है। यह जानना काफी उपयोगी है कि क्या दो क्लस्टरिंग सुसंगत हैं (यानी एक (लगभग) दूसरे का एक उप-वर्ग है) इस प्रश्न के विश्राम के रूप में कि क्या वे पास हैं । एक क्लस्टरिंग एक स्वर्ण मानक से काफी दूर हो सकता है, लेकिन अभी भी लगातार या लगभग सुसंगत हो सकता है। ऐसे मामले में उस सोने के मानक के संबंध में क्लस्टरिंग खराब पर विचार करने का कोई कारण नहीं हो सकता है। बेशक, तुच्छ क्लस्टरिंग टॉप एंड बॉटम किसी भी क्लस्टरिंग के अनुरूप होगा , इसलिए इसे ध्यान में रखा जाना चाहिए।

अंत में, मेरा मानना ​​है कि क्लीयरिंग की तुलना करने के लिए मीरकिन, सूचना का भिन्नता और स्प्लिट / जॉइन जैसे मैट्रिक्स प्राकृतिक उपकरण हैं। अधिकांश अनुप्रयोगों के तरीकों के लिए जो सांख्यिकीय स्वतंत्रता को शामिल करने का प्रयास करते हैं और संयोग के लिए सही होते हैं, स्पष्ट रूप से स्पष्ट होने के बजाय अत्यधिक विपरीत और मोटे होते हैं।

दूसरा उदाहरण क्लस्टरिंग के निम्नलिखित युग्मों पर विचार करें: C1 = {1, 2, 3, 4, 5, 6, 7, 8}, {9, 10, 11, 12, 13, 14, 15, 16}} C2 के साथ = {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}}

और C3 = {{1, 2, 3, 4}, {5, 6, 7, 8, 9, 10}, {11, 12, 13, 14, 15, 16}} के साथ {{1, 2, 3 , 4}, {5, 6, 7, 8, 9, 10, 11, 12}, {13, 14, 15, 16}}

यहाँ C2 को C1 से 9 और 10 को स्थानांतरित करके C3 से बनाया जा सकता है और C3 को 11 और 12 को स्थानांतरित करके C3 से बनाया जा सकता है । दोनों परिवर्तन समान हैं ("दो नोड को स्थानांतरित करें") इस तथ्य को छोड़कर कि इसमें शामिल समूहों के आकार भिन्न होते हैं । इन दो उदाहरणों के लिए क्लस्टरिंग तालिका यह है:

            C1-C2         C3-C4

Mirkin       56            40 
VI            0.594         0.520
Split/Join    4             4

यह देखा जा सकता है कि जानकारी का मिरकिन / रैंड और भिन्नता क्लस्टर आकार (और मिरकिन से काफी हद तक प्रभावित होता है; यह क्लस्टर आकार में परिवर्तन के रूप में अधिक स्पष्ट होगा), जबकि स्प्लिट / जॉइन दूरी नहीं है (इसका मान 4 है) के रूप में यह "चलता है" नोड्स को एक क्लस्टरिंग से दूसरे तक हमेशा सबसे बड़े सामान्य उपक्लेरिंग के माध्यम से)। यह परिस्थितियों के आधार पर एक वांछनीय लक्षण हो सकता है। स्प्लिट / जॉइन (स्थानांतरित करने के लिए नोड्स की संख्या) की सरल व्याख्या और क्लस्टर आकार की इसकी स्वतंत्रता के बारे में पता होने के लायक है। मिरकिन और सूचना के भिन्नता के बीच मुझे लगता है कि उत्तरार्द्ध बहुत बेहतर है।


धन्यवाद mic, यह बहुत ही व्यावहारिक है। मुझे यकीन नहीं है कि मैंने दूसरी तालिका को समझा। तालिका में प्रत्येक प्रविष्टि के लिए दो संख्याओं को अल्पविराम से अलग क्यों किया जाता है? इसके अलावा, क्या आप जानते हैं कि यह तर्क @ सुरेश से कैसे संबंधित है?
अमिलियो वाज़केज़-रीना

1
यदि A और B क्लस्टरिंग हैं, तो d (A, B) को d (A, B) = d (A, X) + d (B, X) के रूप में विभाजित किया जा सकता है, जहाँ X सबसे बड़ा क्लस्टर है जो कि X की उप-परत है दोनों। सुरेश के अंकन में हमारे पास वह d (A, B) = f (A) + f (B) -2f (X) है। इसे f (A) + f (X) -2f (X) + f (B) + f (X) -2f (X) = d (A, X) + d (B, X) के रूप में फिर से लिखा जा सकता है। ऊपर मैंने दो घटक डी (ए, एक्स) और डी (बी, एक्स) को कॉमा से अलग करके लिखा है। दोनों के बीच सबसे बड़ा अंतर मिरकिन / रैंड की द्विघात विशेषताओं का है। यदि आप शीर्ष / निचला और बाएँ / दाएँ उदाहरण देखते हैं, तो ऊपर-नीचे की दूरी बहुत बड़ी है; यह पूरी तरह से शीर्ष के आकार के कारण है।
माइकंस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.