जैकार्ड समानता और कोसाइन समानता के लिए अनुप्रयोग और अंतर


27

आइटम समानता की तुलना करते समय जैकार्ड समानता और कोसाइन समानता दो बहुत ही सामान्य माप हैं। हालांकि, मैं इस स्थिति में बहुत स्पष्ट नहीं हूं कि किस स्थिति में किसी को दूसरे की तुलना में बेहतर होना चाहिए।

क्या कोई इन दोनों मापों के अंतर (अवधारणा या सिद्धांत में अंतर, परिभाषा या गणना नहीं) और उनके बेहतर अनुप्रयोगों को स्पष्ट करने में मदद कर सकता है?

जवाबों:


19

समानता द्वारा दी गई है sij=pp+q+r

कहा पे,

p = # दोनों वस्तुओं के लिए गुणधर्मों का
गुणांक = i के लिए गुण 1 का # 1 और j
r के लिए गुण = # का गुण 0 का i और I के लिए 1 का गुण

जबकि, cosine समानता = जहाँ A और B ऑब्जेक्ट वैक्टर हैं।ABAB

सीधे शब्दों में, कोसाइन समानता में, सामान्य विशेषताओं की संख्या को संभावित विशेषताओं की कुल संख्या से विभाजित किया गया है। जबकि जैकार्ड समानता में, सामान्य विशेषताओं की संख्या को उन विशेषताओं की संख्या से विभाजित किया गया है जो कम से कम दो वस्तुओं में से एक में मौजूद हैं।

और समानता के कई अन्य उपाय हैं, प्रत्येक अपने स्वयं के सनकीपन के साथ। यह तय करते समय कि कौन सा उपयोग करना है, कुछ प्रतिनिधि मामलों के बारे में सोचने की कोशिश करें और अपने उद्देश्य को प्राप्त करने के लिए कौन सा सूचकांक सबसे अधिक उपयोगी परिणाम देगा।

कोजाइन इंडेक्स का उपयोग साहित्यिक चोरी की पहचान करने के लिए किया जा सकता है, लेकिन इंटरनेट पर दर्पण साइटों की पहचान करने के लिए एक अच्छा इंडेक्स नहीं होगा। जबकि जैकार्ड सूचकांक, दर्पण साइटों की पहचान करने के लिए एक अच्छा सूचकांक होगा, लेकिन कॉपी पास्ता साहित्यिक चोरी (एक बड़े दस्तावेज़ के भीतर) को पकड़ने में इतना महान नहीं है।

इन सूचकांकों को लागू करते समय, आपको अपनी समस्या के बारे में अच्छी तरह से सोचना चाहिए और यह पता लगाना चाहिए कि समानता को कैसे परिभाषित किया जाए। एक बार जब आपके मन में परिभाषा होती है, तो आप एक इंडेक्स के लिए खरीदारी के बारे में जा सकते हैं।

संपादित करें: इससे पहले, मेरे पास इस उत्तर में शामिल एक उदाहरण था, जो अंततः गलत था। कई उपयोगकर्ताओं के लिए धन्यवाद जिन्होंने इंगित किया है कि मैंने गलत उदाहरण को हटा दिया है।


2
क्या आप यह बता सकते हैं कि साहित्यिक चोरी की पहचान के लिए कोसाइन इंडेक्स बेहतर क्यों है और दर्पण साइटों की पहचान के लिए अच्छा नहीं है?
dharm0us

मुझे ऐसा लगता है कि इस उत्तर के कुछ हिस्से गैर-सहज हैं। "उदाहरण के लिए, यदि आपके पास 10 विशेषताओं के साथ दो वस्तुएं हैं, तो संभावित 100 विशेषताओं में से बाहर। आगे उनके सभी 10 गुण समान हैं। इस मामले में, जैककार्ड इंडेक्स 1 होगा और कोसाइन इंडेक्स 0.001 होगा।" यह कुछ इस तरह अनुवाद होगा cosine_similarity(10*[1]+90*[0], 10*[1]+90*[0])। बेशक, कोसाइन समानता भी यहां 1 होगी, क्योंकि दोनों ही उपाय उन तत्वों की उपेक्षा करते हैं जो दोनों वैक्टर में शून्य हैं।
सूक्ति

1
यह उत्तर कोसिन समानता के बारे में गलत है, कृपया उपयोगकर्ता के उत्तर पर विचार करें 18596
रॉबिन

"सीधे शब्दों में, कॉस्मिक समानता में, सामान्य विशेषताओं की संख्या को संभावित विशेषताओं की कुल संख्या से विभाजित किया गया है" -> यह पूरी तरह से गलत है। संकेतन वेक्टर डॉट उत्पादों और मानदंडों को परिभाषित करता है।
शॉन ओवेन

22

मैं टिप्पणी नहीं कर सकता क्योंकि मेरे पास कोई स्थिति नहीं है, लेकिन चेक किया गया उत्तर गलत है, साथ ही साथ प्रश्न का उत्तर नहीं दे रहा है। ∥A ie का अर्थ है A का L2 मानदंड, यानी यूक्लिडियन स्पेस में वेक्टर की लंबाई, वेक्टर A की आयामीता नहीं है। दूसरे शब्दों में, आप 0 बिट्स की गिनती नहीं करते हैं, आप 1 बिट्स जोड़ते हैं और लेते हैं। वर्गमूल। तो 100-लंबाई वाले वेक्टर की 10 विशेषताओं का उदाहरण गलत है। क्षमा करें, मेरे पास कोई वास्तविक उत्तर नहीं है जब आपको किस मीट्रिक का उपयोग करना चाहिए, लेकिन मैं गलत उत्तर को बिना बताए नहीं ले सकता।


2
तुम बिलकुल ठीक कह रहे हो। यह शर्म की बात है कि इतने सारे लोग गलत जवाब दे रहे हैं। कोसिन की समानता, जैसा कि विकिपीडिया लेख में वर्णित है, 0 बिट्स को ध्यान में नहीं रखता है। en.wikipedia.org/wiki/Cosine_similarity
nelfiv

11

जैकार्ड समानता का उपयोग दो प्रकार के द्विआधारी मामलों के लिए किया जाता है:

  1. सममित, जहां 1 और 0 का समान महत्व है (लिंग, वैवाहिक स्थिति, आदि)
  2. असममित, जहां 1 और 0 में महत्व के विभिन्न स्तर हैं (एक बीमारी के लिए सकारात्मक परीक्षण)

कोसाइन समानता का उपयोग आमतौर पर दस्तावेजों या ईमेल की तुलना के लिए पाठ खनन के संदर्भ में किया जाता है। यदि दो दस्तावेज़ शब्द वैक्टर के बीच कोसाइन समानता अधिक है, तो दोनों दस्तावेजों में शब्दों की संख्या अधिक है

एक और अंतर 1 है - जैकार्ड गुणांक का उपयोग एक असमानता या दूरी के उपाय के रूप में किया जा सकता है, जबकि कॉस्मिक समानता में इस तरह के कोई निर्माण नहीं हैं। इसी तरह की एक चीज है टोनिमोटो दूरी, जिसका उपयोग वर्गीकरण में किया जाता है।


ऐसा क्यों है कि केवल जैकार्ड का उपयोग असहमति के उपाय के रूप में किया जा सकता है? मेरी समझ यह है कि cosineएक अलग लेकिन अमान्य उपाय नहीं है।
जवदाबा

3

जैसा कि ऊपर उल्लेख किया गया है, चेक किया गया उत्तर गलत है।

कहाँ और हैं द्विआधारी वैक्टर, वे मान 1 के साथ सूचकांक के सेट के रूप में व्याख्या की जा सकती आइए इसलिए सेट पर विचार और ।abAB

जैककार्ड समानता तब द्वारा दी गई है।

J(A,B)=|AB||AB|=|AB||AB|+|AB|+|BA|

Cosine समानता तब द्वारा दी जाती

C(A,B)=|AB||A||B|=|AB|(|AB|+|AB|)(|AB|+|BA|)

कुछ तुलना:

  • यहाँ के अंक एक समान हैं।
  • हर का आकार के साथ अंकगणितीय अंक बढ़ता हैऔरजैकार्ड में, लेकिन ज्यामितीय रूप से कॉशन में।|A||B|
  • कोसाइन के हर में केवल वस्तुओं की संख्या पर निर्भर करता हैऔर मदों की संख्या। यह उनके चौराहे पर निर्भर नहीं करता है।|A||B|

मेरे पास अभी तक एक स्पष्ट अंतर्ज्ञान नहीं है जहां एक को दूसरे पर प्राथमिकता दी जानी चाहिए, सिवाय इसके कि, विक्रम वेंकट ने उल्लेख किया, 1 - जैकार्ड कॉशन के विपरीत एक सच्चे मीट्रिक से मेल खाता है; और कोसाइन स्वाभाविक रूप से वास्तविक-मूल्यवान वैक्टरों तक फैली हुई है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.