मेरे जैसे गैर-सांख्यिकीविदों के लिए, VI
मरीना मेलिया " तुलनात्मक क्लस्टरिंग - एक सूचना आधारित दूरी " (जर्नल ऑफ़ मल्टीवेरेट एनालिसिस, 2007) द्वारा प्रासंगिक पेपर पढ़ने के बाद भी मीट्रिक (सूचना की भिन्नता) के विचार को पकड़ना बहुत मुश्किल है । वास्तव में, मैं वहाँ से बाहर कई क्लस्टरिंग शर्तों से परिचित नहीं हूँ।
नीचे एक MWE है और मैं यह जानना चाहूंगा कि विभिन्न मेट्रिक्स में आउटपुट का क्या मतलब है। मेरे पास आर और आईडी के समान क्रम में ये दो क्लस्टर हैं:
> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L,
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L,
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L,
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L,
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L,
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L,
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L,
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
अब VI
अन्य मेट्रिक्स / सूचकांकों और साहित्य में उनकी उपस्थिति के कालानुक्रमिक आधार पर तुलना करना ।
library(igraph)
# Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi"))
[1] 0.8673525
# Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi"))
[1] 0.2451685
# Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence")
[1] 0.8800522
# van Dongen S metric 2000:
compare(a, b, method = c("split.join"))
[1] 8
# Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand"))
[1] 0.8750403
# Rand Index 1971:
compare(a, b, method = c("rand"))
[1] 0.9374788
जैसा कि आप देख सकते हैं, VI
मूल्य अन्य सभी से अलग था।
- यह मान क्या बताता है (और यह नीचे की आकृति से कैसे संबंधित है)?
- इस मूल्य को कम या उच्च मानने के लिए क्या दिशा निर्देश हैं?
- क्या कोई दिशा-निर्देश परिभाषित हैं?
हो सकता है कि क्षेत्र के विशेषज्ञ इस तरह के परिणामों की रिपोर्ट करने की कोशिश करते समय मेरे जैसे आम लोगों के लिए कुछ समझदार विवरण प्रदान कर सकें। मैं वास्तव में सराहना करूंगा यदि कोई अन्य मैट्रिक्स के लिए भी दिशा-निर्देश प्रदान करेगा (जब मूल्य पर विचार करना बड़ा या छोटा है, अर्थात, दो समूहों के बीच समानता के संबंध में)।
मैंने संबंधित सीवी थ्रेड्स यहां और यहां पढ़े हैं , लेकिन फिर भी पीछे के अंतर्ज्ञान को समझ नहीं सका VI
। क्या कोई इसे सादे अंग्रेजी में समझा सकता है?
नीचे दिया गया आंकड़ा ऊपर उल्लिखित कागज से 2 है VI
।