समानता द्वारा दी गई है
sij=pp+q+r
कहा पे,
p = # दोनों वस्तुओं के लिए गुणधर्मों का
गुणांक = i के लिए गुण 1 का # 1 और j
r के लिए गुण = # का गुण 0 का i और I के लिए 1 का गुण
जबकि, cosine समानता = जहाँ A और B ऑब्जेक्ट वैक्टर हैं।A⋅B∥A∥∥B∥
सीधे शब्दों में, कोसाइन समानता में, सामान्य विशेषताओं की संख्या को संभावित विशेषताओं की कुल संख्या से विभाजित किया गया है। जबकि जैकार्ड समानता में, सामान्य विशेषताओं की संख्या को उन विशेषताओं की संख्या से विभाजित किया गया है जो कम से कम दो वस्तुओं में से एक में मौजूद हैं।
और समानता के कई अन्य उपाय हैं, प्रत्येक अपने स्वयं के सनकीपन के साथ। यह तय करते समय कि कौन सा उपयोग करना है, कुछ प्रतिनिधि मामलों के बारे में सोचने की कोशिश करें और अपने उद्देश्य को प्राप्त करने के लिए कौन सा सूचकांक सबसे अधिक उपयोगी परिणाम देगा।
कोजाइन इंडेक्स का उपयोग साहित्यिक चोरी की पहचान करने के लिए किया जा सकता है, लेकिन इंटरनेट पर दर्पण साइटों की पहचान करने के लिए एक अच्छा इंडेक्स नहीं होगा। जबकि जैकार्ड सूचकांक, दर्पण साइटों की पहचान करने के लिए एक अच्छा सूचकांक होगा, लेकिन कॉपी पास्ता साहित्यिक चोरी (एक बड़े दस्तावेज़ के भीतर) को पकड़ने में इतना महान नहीं है।
इन सूचकांकों को लागू करते समय, आपको अपनी समस्या के बारे में अच्छी तरह से सोचना चाहिए और यह पता लगाना चाहिए कि समानता को कैसे परिभाषित किया जाए। एक बार जब आपके मन में परिभाषा होती है, तो आप एक इंडेक्स के लिए खरीदारी के बारे में जा सकते हैं।
संपादित करें:
इससे पहले, मेरे पास इस उत्तर में शामिल एक उदाहरण था, जो अंततः गलत था। कई उपयोगकर्ताओं के लिए धन्यवाद जिन्होंने इंगित किया है कि मैंने गलत उदाहरण को हटा दिया है।