ऐसे कई गुणांक मौजूद हैं (अधिकांश यहां व्यक्त किए गए हैं )। केवल सूत्रों में अंतर के परिणाम क्या हैं, इस पर ध्यान देने की कोशिश करें, खासकर जब आप गुणांक के एक मैट्रिक्स की गणना करते हैं ।
उदाहरण के लिए, कल्पना कीजिए कि ऑब्जेक्ट 1 और 2 समान हैं, जैसा कि ऑब्जेक्ट 3 और 4 हैं। लेकिन 1 और 2 की सूची में कई विशेषताएँ हैं जबकि 3 और 4 में केवल कुछ विशेषताएँ हैं। इस मामले में, रसेल-राव (विचाराधीन कुल विशेषताओं की सह-विशेषताओं का अनुपात) जोड़ी 1-2 के लिए उच्च और जोड़ी 3-4 के लिए कम होगा। लेकिन Jaccard (के अनुपात में विशेषताओं के संयुक्त संख्या के लिए सह-जिम्मेदार बताते हैं दोनों वस्तुओं है = संभावना है कि उसके बाद वे दोनों यह पूछना चाहते हैं तो या तो वस्तु एक विशेषता है) दोनों जोड़े 1-2 और 3-4 के लिए उच्च किया जाएगा।
"विशेषताओं द्वारा संतृप्ति" के आधार स्तर के लिए यह समायोजन बनाता Jaccard इतना लोकप्रिय और की तुलना में अधिक उपयोगी रसेल-राव , क्लस्टर विश्लेषण या बहुआयामी स्केलिंग में जैसे। आप एक अर्थ में, कुलज़िनेस्की -2 माप का चयन करके उपरोक्त समायोजन को परिष्कृत कर सकते हैं, जो अंकगणितीय माध्य संभावना है कि यदि किसी वस्तु में एक विशेषता है, तो दूसरी वस्तु में यह भी है:
( a)ए + बी+ कए + सी) / २
यहां दो वस्तुओं के लिए विशेषताओं का आधार (या क्षेत्र) जमा नहीं किया गया है, जैसा कि जैकार्ड में है, लेकिन दोनों वस्तुओं में से प्रत्येक के लिए खुद का है। नतीजतन, यदि वस्तुएं उनके पास मौजूद विशेषताओं की संख्या में बहुत भिन्न होती हैं, और इसके सभी गुण "अमीर" ऑब्जेक्ट को "अमीर" के साथ साझा करते हैं, तो कुलसचिनस्की उच्च होगा, जबकि जैककार्ड मध्यम होगा।
या आप ज्यामितीय माध्य संभावना की गणना करना पसंद कर सकते हैं कि यदि किसी वस्तु में एक विशेषता है, तो दूसरी वस्तु में वह भी है, जो ओचियाइ मापता है:
क्योंकि उत्पाद केवल एक शब्द के बढ़ने पर राशि की तुलना में कमजोर हो जाता है, ओचियाई वास्तव में केवल तभी उच्च होगा जब दोनों अनुपात (संभावनाएं) उच्च हों, जिसका तात्पर्य यह है कि ओचियाई द्वारा समान माना जाने वाला ऑब्जेक्ट महान साझा करना चाहिए उनकी विशेषताओं के शेयर। संक्षेप में, Ochiai समानता प्रतिबंध यदि और असमान हैं। ओचिया वास्तव में कोसाइन समानता माप है (और रसेल-राव डॉट उत्पाद समानता है)।
एए + बीएए + सी---------√
खसी
पुनश्च
क्या यह केवल कुछ डेटासेट के लिए है, दोनों विशेषताओं की एक साथ अनुपस्थिति (डी) किसी भी जानकारी को व्यक्त नहीं करती है?
समानता उपायों की बात करते हुए, किसी को द्विआधारी विशेषताओं (वर्तमान बनाम अनुपस्थित) के साथ नाममात्र द्विधातु गुण (जैसे महिला, पुरुष) को नहीं मिलाया जाना चाहिए । बाइनरी विशेषता सममित नहीं है (सामान्य रूप से), - यदि आप और मैं एक विशेषता साझा करते हैं, तो यह हमें समान कॉल करने का आधार है; यदि आप और मैं दोनों की विशेषता याद आती है, तो अध्ययन के संदर्भ के आधार पर, इसे समानता का प्रमाण माना जा सकता है या नहीं भी माना जा सकता है। इसलिए का अलग-अलग उपचार संभव है।घ
यह भी ध्यान दें कि यदि आप 1+ नाममात्र की विशेषताओं (द्विभाजन या बहुपद) के आधार पर वस्तुओं के बीच समानता की गणना करना चाहते हैं , तो प्रत्येक ऐसे चर को डमी बाइनरी चर के सेट में पुन: लिखें। फिर गणना करने के लिए अनुशंसित समानता उपाय पासा होगा ( जो , जब डमी चर के 1+ सेट के लिए गणना की जाती है, तो ओचियाई और कुलज़िस्की -2 के बराबर है)।