समायोजित रैंड इंडेक्स बनाम समायोजित म्युचुअल सूचना


10

मैं क्लस्टरिंग प्रदर्शन का मूल्यांकन करने की कोशिश कर रहा हूं। मैं मेट्रिक्स पर स्कीस्किट-लर्न डॉक्यूमेंटेशन पढ़ रहा था । मुझे एआरआई और एएमआई के बीच अंतर समझ में नहीं आता है। मुझे ऐसा लगता है कि वे दो अलग-अलग तरीकों से एक ही काम करते हैं।

प्रलेखन से उद्धृत:

ग्राउंड ट्रूथ क्लास असाइनमेंट्स लेबल_ट्र्यू के ज्ञान और एक ही सैंपल्स लेबल्स के हमारे क्लस्टरिंग एल्गोरिदम असाइनमेंट्स को देखते हुए, एडजस्टेड रैंड इंडेक्स एक ऐसा फंक्शन है , जो दो असाइनमेंट्स की समानता को मापता है , क्रमपरिवर्तन को अनदेखा करता है और संभावना के साथ।

बनाम

ग्राउंड ट्रूथ क्लास असाइनमेंट्स लेबल_ट्रू और एक ही सैंपल लेबल्स के हमारे क्लस्टरिंग एल्गोरिदम असाइनमेंट्स के ज्ञान को देखते हुए, म्यूचुअल इन्फॉर्मेशन एक ऐसा फंक्शन है , जो दो असाइनमेंट्स के एग्रीमेंट को मापता है , परमिशन की अनदेखी करता है ... एएमआई को हाल ही में प्रस्तावित किया गया था और इसके खिलाफ सामान्यीकृत किया गया है। मोका।

क्या मुझे अपने क्लस्टरिंग मूल्यांकन में दोनों का उपयोग करना चाहिए या क्या यह निरर्थक होगा?


श्री रैंड यादृच्छिक नहीं है।
है क्विट -

जवाबों:


2

वे एक दर्जन में से दो हैं जो सभी क्लस्टरिंग की तुलना करने की कोशिश करते हैं।

लेकिन वे समकक्ष नहीं हैं। वे विभिन्न सिद्धांत का उपयोग करते हैं।

कभी-कभी, एआरआई एक परिणाम और एएमआई दूसरे को पसंद कर सकता है। लेकिन अक्सर वे वरीयता में सहमत होते हैं (संख्या में नहीं)।


आपका क्या मतलब है: "वे वरीयता में सहमत हैं (संख्या में नहीं)?"
al27091

जब आप कई परिणामों की तुलना करते हैं।
QUIT -

10

अंगूठे का नियम है:

  • ARI का उपयोग तब करें जब जमीनी सच्चाई के क्लस्टरिंग में बड़े समान आकार के क्लस्टर हों
  • उमा एएमआई जब जमीनी सच्चाई का असंतुलित होना असंतुलित है और छोटे समूह मौजूद हैं

मैंने इस विषय पर काम किया। संदर्भ: संभावना क्लस्टरिंग तुलना उपायों के लिए समायोजन


मैंने अपने कुछ डेटासेट पर HDBSCAN और KMeans को केमन्स के लिए क्लस्टर की सही संख्या और HDBSCAN के लिए सही न्यूनतम क्लस्टर आकार के साथ लागू किया। मेरी समस्या यह है कि एएमआई में प्रगति एआरआई में प्रगति के साथ नहीं है। मुझे एएमआई में 0.3 और 0.35 का मतलब मिलता है जो कम है। मुझे क्रमशः ARI के परिणाम 0: 0.07 और 0.01 के करीब मिलते हैं। यहां तक ​​कि उन मामलों में जहां मैंने HDBSCAN के साथ बेहतर AMI प्राप्त किया था, मेरे ARI स्कोर 0 के बहुत करीब थे यानी HDBSCAN उन मामलों में भी कम ARI का उत्पादन करता है, जहां AMI अधिक है।
ryuzakinho

AMI के लिए किस प्रकार के क्लस्टरिंग परिणाम का अर्थ 0.3 और 0.35 है?
सिमोन

1
pastebin.com/raw/WHvTxbLm यह उन मामलों में से एक है जो मुझे समझ में नहीं आता है: बेहतर एएमआई का मतलब बेहतर एआरआई और इसके विपरीत नहीं है। क्या कोई कारण है कि मैं एक या दूसरे के सापेक्ष सुधार पर भरोसा करूंगा। मुझे यकीन नहीं है कि मेरे परिणामों को बेहतर बनाने के लिए कौन से मीट्रिक को देखना है (आपके द्वारा लिंक किए गए पेपर से, मुझे लगता है कि इसे एएमआई को मेरा वर्ग वितरण दिया जाना चाहिए लेकिन मैं अभी भी भ्रमित हूं)।
रयुज़ाकिन्हो

1
आपके मामले में, HDBSCAN परिणाम बहुत बड़ा क्लस्टर दिखाता है और कई छोटे हैं जो एक असंतुलित समाधान की परिभाषा है। इसलिए एएमआई DBSCAN के साथ बड़ा है। आपका जमीनी सच उस समाधान से अधिक संतुलित है। इसलिए, मैं यहां समाधान चुनने के लिए एआरआई का उपयोग करूंगा। इसने कहा, ऐसा लगता है कि आपके द्वारा प्राप्त क्लस्टरिंग समाधान उतना अच्छा नहीं है। शायद यह इसलिए है क्योंकि आपके पास कई क्लस्टर हैं। क्या आप अपने इच्छित क्लस्टर्स की संख्या कम कर सकते हैं? या क्या आपके पास विशुद्ध रूप से दूरी आधारित क्लस्टरिंग का उपयोग करने के बजाय खाते में लेने की विशेषताएं हैं?
सिमोन

1
अधिक गुणात्मक परीक्षण के बाद, यह पता चला है कि एएमआई मेरे उपयोग के मामले के लिए अधिक विश्वसनीय था। दरअसल, एएमआई ने कहा कि एचडीबीएससीएन बेहतर था, और मैंने इसे वास्तव में बेहतर पाया। हालांकि मेरे पास एक बड़ा शोर समूह था, अन्य क्लस्टर KMEANS समूहों की तुलना में शुद्ध थे।
ryuzakinho
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.