समानता सेट करें - द्विघात जटिलता के बिना जैकार्ड सूचकांक की गणना करें


14

मेरे पास n सेट का एक समूह है जिसके लिए मुझे "विशिष्टता" या "समानता" मान के एक प्रकार की गणना करने की आवश्यकता है। मैं एक उपयुक्त मीट्रिक के रूप में जैककार्ड इंडेक्स पर बस गया हूं । दुर्भाग्य से, जैकार्ड सूचकांक केवल एक बार में दो सेटों पर काम करता है। सभी सेटों के बीच समानता की गणना करने के लिए , n n 2 जैकार्ड गणनाओं के क्रम में इसकी आवश्यकता होगी ।nn2

(यदि यह मदद करता है, तो आमतौर पर 10 से 10000 के बीच होता है, और प्रत्येक सेट में औसतन 500 तत्व होते हैं। इसके अलावा, अंत में, मुझे परवाह नहीं है कि कोई भी दो विशिष्ट सेट समान हैं - बल्कि, मुझे केवल इस बात की परवाह है कि आंतरिक समानता क्या है सेट का पूरा समूह है। (दूसरे शब्दों में, समूह में सभी जैककार्ड इंडेक्स के माध्य (या कम से कम एक पर्याप्त सटीक अनुमान))n

दो सवाल:

  1. वहाँ अभी भी जटिलता के बिना Jaccard सूचकांक का उपयोग करने का एक तरीका है ?n2
  2. क्या मेरे द्वारा सुझाए गए तरीके से सेट के समूह में सेट समानता / विशिष्टता की गणना करने का एक बेहतर तरीका है?

क्या आप पहले स्पष्ट कर सकते हैं कि "आंतरिक समानता" से आपका क्या मतलब है?
सुरेश

दूसरे शब्दों में, समूह में सभी जैककार्ड इंडेक्स के माध्य (या कम से कम एक पर्याप्त सटीक अनुमान)।

5
यदि आप उत्तर को अनुमानित करने के लिए तैयार हैं, तो आप जैकार्ड दूरी का अनुमान लगाने के लिए मिन-वार हैशिंग का उपयोग कर सकते हैं और फिर वांछित औसत की गणना करने के लिए परिणामी प्रतिनिधित्व का उपयोग कर सकते हैं।
सुरेश

6
मुझे नहीं पता कि आपके "पर्याप्त रूप से सटीक" से क्या मतलब है, लेकिन कई चीजों के औसत का अनुमान लगाने का एक तरीका सिर्फ उनमें से कई (इस मामले में सेट के कई जोड़े के जैकार्ड सूचकांकों) को यादृच्छिक रूप से गणना करना और उनके औसत की गणना करना है। फिर आप चेरनॉफ बाउंड का उपयोग इस संभावना पर एक ऊपरी सीमा प्राप्त करने के लिए कर सकते हैं कि यह अनुमान सही अर्थ से बहुत दूर है।
Tsuyoshi Ito

जवाबों:


4

एक विकल्प [1] की सिग्नेचर स्कीम, आकार-आधारित फ़िल्टरिंग का उपयोग करना होगा : एक ऐसी योजना जो सेट किए गए जोड़े की संख्या को कम करने के लिए आकार की जानकारी का उपयोग करती है, जिस पर विचार करने की आवश्यकता है।

वे एक भारित रूप के साथ भी प्रयोग करते हैं; जहां वजन IDF- आधारित होते हैं।

[१] अरसु, अरविंद, वेंकटेश गैंती, और राघव कौशिक। "कुशल सटीक सेट-समानता जुड़ती है।" 3218 अंतर्राष्ट्रीय सम्मेलन में बड़े डेटा बेस पर कार्यवाही, 918–929। VLDB '06। वीएलडीबी एंडोमेंट, 2006


ऐसा लगता है कि लिंक मर गया है। इसे vldb.org/conf/2006/p918-arasu.pdf पर अपडेट करने पर विचार करें ।
j_random_hacker

0

एक और विकल्प स्थानीय संवेदनशीलता हैशिंग विकी लिंक को रोजगार देना होगा । मैंने देखा है कि इसका उपयोग वू और ज़ो द्वारा सामुदायिक समानता का पता लगाने में किया जा रहा है ( स्थानीय-संवेदनशील हैशिंग , न्यूरल नेटवर्क 58: 14-28; एसीएम डीएल ) का उपयोग करते हुए सामाजिक टैगिंग सिस्टम के लिए एक वृद्धिशील समुदाय का पता लगाने का तरीका , जो मूल रूप से पूर्णांक के बीच समान समानता का पता लगा रहा है ; स्ट्रिंग सेट।


1
कृपया लिंक की सामग्री को संक्षेप में प्रस्तुत करें, और कागज का हवाला दें। यदि लिंक बासी हो जाते हैं, तो वर्तमान उत्तर बेकार हो जाता है।
वॉनब्रांड
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.