समर्पण में अत्याधुनिक

रिकॉर्ड कटौती में अत्याधुनिक तरीके क्या हैं? Deduplication को कभी-कभी कहा भी जाता है: रिकॉर्ड लिंकेज, इकाई संकल्प, पहचान संकल्प, मर्ज / पर्ज। मैं CBLOCK के बारे में उदाहरण के लिए जानता हूं [1]।

मैं सराहना करूंगा यदि उत्तर में मौजूदा सॉफ्टवेयर के संदर्भ भी शामिल हैं जो विधियों को लागू करते हैं। मैं उदाहरण के लिए जानता हूं कि महतो चंदवा-क्लस्टर को लागू करता है । वहाँ भी ड्यूक कि Lucene का उपयोग करता है।

डिडुप्लीकेशन के लिए कई कमर्शियल सिस्टम हैं। यह जानना मूल्यवान होगा कि वे कैसे काम करते हैं और वे कितने कुशल हैं।

मैं एक एकल डेटासेट के भीतर कटौती और विभिन्न स्रोतों से आने वाले कई डेटासेट के बीच लिंक करने में दिलचस्पी रखता हूं। दक्षता और बड़ी मात्रा में डेटा को संसाधित करने की क्षमता भी महत्वपूर्ण है।

[१] CBLOCK: लार्ज-स्केल डी-डुप्लिकेट कार्य के लिए एक स्वचालित अवरोधक तंत्र

clustering data-cleaning record-linkage

— जकुब कोटोव्स्की
स्रोत

एक वाणिज्यिक समाधान जो ब्याज का हो सकता है। एक विक्रय बिंदु यह है कि यह समय है और आमतौर पर अन्य वाणिज्यिक प्रतियोगियों के लिए बेहतर परिणाम प्राप्त करता है। novetta.com/products/entity-analytics

O (n)

$O(n)$

— कहना है कि मोनिका

Tamr (पहले डेटा Tamer) पैमाने पर डेटाबेस समर्पण करता है। Naive Bayes और ग्राफ क्लस्टरिंग शामिल हैं।

मेरा मानना है कि एल्गोरिदम को एसक्यूएल में बड़े पैमाने पर लागू किया गया है, जो कुछ हद तक अजीब है, लेकिन उनके व्हाइटपेपर का प्राथमिक लेखक माइकल स्टोनब्रेकर है, जिन्होंने पोस्टग्रेक्यूएल के निर्माण का नेतृत्व करने में मदद की।

यहां व्हाइटपैपर देखें ।

संपादित करें: मैंने उन चरणों को संक्षेप में प्रस्तुत किया है जो उनका पेपर नीचे लेता है। मेरे कुछ शब्द लगभग उनके कागज के समान हैं।

टैमर्स डिडुप्लीकेशन सिस्टम में नए डेटा स्रोत से निपटने के लिए दो मुख्य चरण हैं: (1) विशेषता पहचान और (2) एंटिटी कंसोलिडेशन। ये लगभग कॉलम डिडुप्लीकेशन और रो डिडुप्लीकेशन के बराबर हैं।

1) एक मौजूदा एक नए डेटा स्रोत की तुलना में, पहला कदम गुण पहचान है।

नए स्रोत की विशेषताओं (कॉलम) को चार एल्गोरिदम के साथ मौजूदा स्रोत की विशेषताओं के लिए मैप किया गया है:

फजी स्ट्रिंग तुलना के साथ विशेषता नामों की तुलना करें (ट्रिग्राम कोसाइन समानता)
दस्तावेज़ के रूप में एक संपूर्ण स्तंभ पर विचार करें, टोकन करें, कुल आवृत्ति / व्युत्क्रम दस्तावेज़ आवृत्ति (TF-IDF) कोसाइन और अन्य स्तंभों के बीच की समानता को मापें।
न्यूनतम वर्णनात्मक लंबाई: सटीक मिलान के साथ उनके चौराहे और संघ के आकार के आधार पर दो स्तंभों की तुलना करें।
संख्यात्मक स्तंभों के लिए, यह निर्धारित करने के लिए कि क्या वे समान वितरण से आए हैं, नए कॉलम और मौजूदा संख्यात्मक कॉलम के बीच एक टी-टेस्ट करें।

2) इकाई समेकन (पंक्ति समर्पण)

एक बार पहचान पहचान के प्रदर्शन के बाद, हम पंक्तियों (रिकॉर्ड्स) को कम करना चाहते हैं।

क्लस्टरिंग के साथ वर्गीकरण

रिकॉर्ड्स को पहली बार समानता के आधार पर श्रेणियों में बांटा गया है , और फिर श्रेणी स्तर पर कटौती नियम सीखे गए हैं। वर्गीकरण के उदाहरण वे देते हैं जो स्की रिसॉर्ट के एक डेटाबेस के लिए है, जहां पश्चिमी स्की रिसॉर्ट पूर्वी स्की रिसॉर्ट से एक अलग श्रेणी होनी चाहिए, क्योंकि आधार ऊंचाई जैसे सुविधाओं को दृढ़ता से अलग किया जाता है चाहे रिसॉर्ट पूर्व या पश्चिम में हो। वर्गीकरण एक क्लस्टरिंग एल्गोरिथ्म के साथ किया जाता है, उदाहरण के रूप में दिए गए k- साधनों के साथ।

नैवे बेस के साथ डेडुप्लिकेटिंग

एक बार जब विशेषताओं की पहचान कर ली जाती है और रिकॉर्ड को श्रेणियों में बदल दिया जाता है, तो हम प्रत्येक श्रेणी के लिए डुप्लिकेट और नॉन-ड्यूप्स के प्रशिक्षण सेट के आधार पर डिडुप्लीकेशन नियम सीखते हैं।

दो प्रकार के कटौती नियम हैं:

थ्रेशोल्ड विशेषता समानता के लिए एक दूरी फ़ंक्शन के संबंध में जो विशेषता के लिए समझ में आता है। (इन थ्रेसहोल्ड को कैसे सीखा जाता है, इस बारे में कागज स्पष्ट नहीं है।)
प्रत्येक विशेषता में डुबकी और गैर-दुपट्टे के लिए संभाव्यता वितरण । जैसे P("Title" values similar | duplicate) ~ 1और Pr("State" values are different | duplicate) ~ 0

प्रत्येक जोड़ी के रिकॉर्ड के लिए, हम उनकी प्रत्येक विशेषता की समानता को एक उपयुक्त दूरी मीट्रिक के बराबर करते हैं। यदि किसी विशेषता में इसकी दहलीज के ऊपर समानता है, तो अभिलेखों की जोड़ी को Naive Bayes क्लासिफायर के माध्यम से डुप या गैर-डूप के रूप में वर्गीकृत करने के लिए खिलाया जाता है।

मेरे इस धारणा है कि रिकॉर्ड के लिए है X1 = (a1,b1,c1,d1), X2 = (a2,b2,c2,d2)वे एक समानता वेक्टर गणना S = (s_a, s_b, s_c, s_d)जहां s_iसही दूरी मीट्रिक करने के लिए उस विशेषता wrt के लिए समानता है।

मुझे लगता है कि उनके Naive Bayes क्लासिफायर में यह संरचना है:

ग्राफ क्लस्टरिंग के साथ इकाई संकल्प

वर्गीकरण चरण के बाद, हमारे पास दिए गए श्रेणी से रिकॉर्ड का एक सबसेट होता है, जो माना जाता है कि युग्मक डुप्लिकेट हैं। इन्हें अब अलग-अलग संस्थाओं में हल करने की आवश्यकता है । यह एक ट्रांज़िटिविटी समस्या को हल करता है: यदि रिकॉर्ड t1 t2 का एक डुप्लिकेट है और t2 t3 का एक डूप है, तो t1 को भी t3 का डूप होना चाहिए। यह कहना है t1, t2, और t3 एक ही इकाई का प्रतिनिधित्व करते हैं ।

इस चरण के लिए एक ग्राफ संरचना का उपयोग किया जाता है। श्रेणी के भीतर, प्रत्येक रिकॉर्ड जो एक ठग हो सकता है वह एक नोड है। जिन नोड्स पर एक दूसरे के प्रति संदेह होने का संदेह है, उनके बीच किनारों हैं। क्लस्टर तब ग्राफ में खोजे जाते हैं और फिर थ्रेसहोल्ड के आधार पर एक साथ विलय कर दिया जाता है कि एक क्लस्टर दूसरे से कितनी मजबूती से जुड़ा हुआ है। यहां क्लस्टर जोड़ियों के तीन उदाहरण दिए गए हैं जो उनकी संगति के आधार पर एक साथ विलय नहीं हो सकते हैं या हो सकते हैं:

  c1        c2    

x-x-x-----y-y-y
|\|/|     |\|/|
x-x-x-----y-y-y  Meets similiarity threshold
|/|\|     |/|\|
x-x-x-----y-y-y    

x-x-x     y-y-y
|\|/|     |\|/|
x-x-x-----y-y-y  Does not meet similarity threshold
|/|\|     |/|\|
x-x-x     y-y-y    

    x     y
    |     |
    x-----y      Meets similarity threshold
    |     |
    x     y

जब एल्गोरिथ्म समाप्त हो जाता है, तो प्रत्येक क्लस्टर को श्रेणी के भीतर एक अलग इकाई का प्रतिनिधित्व करना चाहिए । इस प्रक्रिया को पूरा करने के लिए, इस इकाई की विशेषताओं को उसके भीतर के रिकॉर्ड की विशेषताओं से निर्धारित किया जाना चाहिए । नल पहले खारिज कर दिए जाते हैं, फिर आवृत्ति, औसत, मंझला और सबसे लंबे सहित विधियों का उपयोग किया जाता है।

एल्गोरिदम के अनिश्चित होने पर, और विशेषज्ञता के विभिन्न स्तरों के साथ कई विशेषज्ञों का उपयोग कैसे करें, यह जानने के लिए कि कागज डोमेन विशेषज्ञों का उपयोग करने के लिए कुछ तरीके विकसित करता है।

— thomaskeefe
स्रोत

व्हाइटपर के

— fjsj