क्लस्टर सत्यापन के लिए सूचना (VI) मीट्रिक की भिन्नता के पीछे अंतर्ज्ञान क्या है?


11

मेरे जैसे गैर-सांख्यिकीविदों के लिए, VIमरीना मेलिया " तुलनात्मक क्लस्टरिंग - एक सूचना आधारित दूरी " (जर्नल ऑफ़ मल्टीवेरेट एनालिसिस, 2007) द्वारा प्रासंगिक पेपर पढ़ने के बाद भी मीट्रिक (सूचना की भिन्नता) के विचार को पकड़ना बहुत मुश्किल है । वास्तव में, मैं वहाँ से बाहर कई क्लस्टरिंग शर्तों से परिचित नहीं हूँ।

नीचे एक MWE है और मैं यह जानना चाहूंगा कि विभिन्न मेट्रिक्स में आउटपुट का क्या मतलब है। मेरे पास आर और आईडी के समान क्रम में ये दो क्लस्टर हैं:

> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")

अब VIअन्य मेट्रिक्स / सूचकांकों और साहित्य में उनकी उपस्थिति के कालानुक्रमिक आधार पर तुलना करना ।

library(igraph)
  # Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi")) 
[1] 0.8673525
  # Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi")) 
[1] 0.2451685
  # Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence") 
[1] 0.8800522
  # van Dongen S metric 2000:
compare(a, b, method = c("split.join")) 
[1] 8
  # Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand")) 
[1] 0.8750403
  # Rand Index 1971:
compare(a, b, method = c("rand")) 
[1] 0.9374788

जैसा कि आप देख सकते हैं, VIमूल्य अन्य सभी से अलग था।

  • यह मान क्या बताता है (और यह नीचे की आकृति से कैसे संबंधित है)?
  • इस मूल्य को कम या उच्च मानने के लिए क्या दिशा निर्देश हैं?
  • क्या कोई दिशा-निर्देश परिभाषित हैं?

हो सकता है कि क्षेत्र के विशेषज्ञ इस तरह के परिणामों की रिपोर्ट करने की कोशिश करते समय मेरे जैसे आम लोगों के लिए कुछ समझदार विवरण प्रदान कर सकें। मैं वास्तव में सराहना करूंगा यदि कोई अन्य मैट्रिक्स के लिए भी दिशा-निर्देश प्रदान करेगा (जब मूल्य पर विचार करना बड़ा या छोटा है, अर्थात, दो समूहों के बीच समानता के संबंध में)।

मैंने संबंधित सीवी थ्रेड्स यहां और यहां पढ़े हैं , लेकिन फिर भी पीछे के अंतर्ज्ञान को समझ नहीं सका VI। क्या कोई इसे सादे अंग्रेजी में समझा सकता है?

नीचे दिया गया आंकड़ा ऊपर उल्लिखित कागज से 2 है VI

यहाँ छवि विवरण दर्ज करें


2
ये सभी समानताएं और मैट्रिक्स (दो प्रकारों के बीच अंतर को नोट करते हैं) किसी तरह से मापते हैं या अन्य दो भागों के बीच सबसे बड़े सामान्य उपखंड के साथ जुड़े विखंडन की मात्रा। वे सभी का उपयोग करते हैं जो भ्रम मैट्रिक्स के रूप में जाना जाता है। VI के सटीक सूत्र पर विचार करके इसे उस विखंडन को मापने के लिए समझा जा सकता है। मैं मीला प्रकाशनों में से एक में सूत्र को देखने का सुझाव दूंगा, और इन सभी दूरियों के सामान्यीकृत संस्करणों के बारे में पढ़ने के लिए, क्योंकि वे सभी अलग-अलग पैमाने पर हैं। यह सबसे महत्वपूर्ण बिंदु हो सकता है।
15

मैं VI की व्याख्या से भी जूझ रहा था और मुझे यह लेख बहुत उपयोगी लगा!
पिज़्ज़ा

जवाबों:


1

आपको यह महसूस करने की आवश्यकता है कि उपायों की अलग व्याख्या हो सकती है।

अपने कथानक से देखते हुए, निम्न VI अच्छा है।

1 - 0.2451685 = 0.7548315

जो अन्य उपायों के अनुरूप है।

हालांकि, ध्यान दें कि इनमें से अधिकांश उपाय कुछ अलग मापते हैं

यह मानने का कोई कारण नहीं है कि सिर्फ इसलिए कि एक उपाय 0.8 है, दूसरा भी 0.8 होना चाहिए


मुझे लगता है कि ओपी इसकी सराहना करेगा यदि आप यह बता सकते हैं कि उनमें से प्रत्येक किस अलग चीज को मापता है।
गूँग - मोनिका

मैं उनमें से प्रत्येक को समझाने के लिए उन्हें अच्छी तरह से नहीं जानता। यह स्पष्ट है कि एक तुलनीय पैमाने / इकाई नहीं है। जैसे वोल्ट और पैर तुलनीय नहीं हैं।
QUIT - ऐनी-मूस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.