Tamr (पहले डेटा Tamer) पैमाने पर डेटाबेस समर्पण करता है। Naive Bayes और ग्राफ क्लस्टरिंग शामिल हैं।
मेरा मानना है कि एल्गोरिदम को एसक्यूएल में बड़े पैमाने पर लागू किया गया है, जो कुछ हद तक अजीब है, लेकिन उनके व्हाइटपेपर का प्राथमिक लेखक माइकल स्टोनब्रेकर है, जिन्होंने पोस्टग्रेक्यूएल के निर्माण का नेतृत्व करने में मदद की।
यहां व्हाइटपैपर देखें ।
संपादित करें: मैंने उन चरणों को संक्षेप में प्रस्तुत किया है जो उनका पेपर नीचे लेता है। मेरे कुछ शब्द लगभग उनके कागज के समान हैं।
टैमर्स डिडुप्लीकेशन सिस्टम में नए डेटा स्रोत से निपटने के लिए दो मुख्य चरण हैं: (1) विशेषता पहचान और (2) एंटिटी कंसोलिडेशन। ये लगभग कॉलम डिडुप्लीकेशन और रो डिडुप्लीकेशन के बराबर हैं।
1) एक मौजूदा एक नए डेटा स्रोत की तुलना में, पहला कदम गुण पहचान है।
नए स्रोत की विशेषताओं (कॉलम) को चार एल्गोरिदम के साथ मौजूदा स्रोत की विशेषताओं के लिए मैप किया गया है:
- फजी स्ट्रिंग तुलना के साथ विशेषता नामों की तुलना करें (ट्रिग्राम कोसाइन समानता)
- दस्तावेज़ के रूप में एक संपूर्ण स्तंभ पर विचार करें, टोकन करें, कुल आवृत्ति / व्युत्क्रम दस्तावेज़ आवृत्ति (TF-IDF) कोसाइन और अन्य स्तंभों के बीच की समानता को मापें।
- न्यूनतम वर्णनात्मक लंबाई: सटीक मिलान के साथ उनके चौराहे और संघ के आकार के आधार पर दो स्तंभों की तुलना करें।
- संख्यात्मक स्तंभों के लिए, यह निर्धारित करने के लिए कि क्या वे समान वितरण से आए हैं, नए कॉलम और मौजूदा संख्यात्मक कॉलम के बीच एक टी-टेस्ट करें।
2) इकाई समेकन (पंक्ति समर्पण)
एक बार पहचान पहचान के प्रदर्शन के बाद, हम पंक्तियों (रिकॉर्ड्स) को कम करना चाहते हैं।
क्लस्टरिंग के साथ वर्गीकरण
रिकॉर्ड्स को पहली बार समानता के आधार पर श्रेणियों में बांटा गया है , और फिर श्रेणी स्तर पर कटौती नियम सीखे गए हैं। वर्गीकरण के उदाहरण वे देते हैं जो स्की रिसॉर्ट के एक डेटाबेस के लिए है, जहां पश्चिमी स्की रिसॉर्ट पूर्वी स्की रिसॉर्ट से एक अलग श्रेणी होनी चाहिए, क्योंकि आधार ऊंचाई जैसे सुविधाओं को दृढ़ता से अलग किया जाता है चाहे रिसॉर्ट पूर्व या पश्चिम में हो। वर्गीकरण एक क्लस्टरिंग एल्गोरिथ्म के साथ किया जाता है, उदाहरण के रूप में दिए गए k- साधनों के साथ।
नैवे बेस के साथ डेडुप्लिकेटिंग
एक बार जब विशेषताओं की पहचान कर ली जाती है और रिकॉर्ड को श्रेणियों में बदल दिया जाता है, तो हम प्रत्येक श्रेणी के लिए डुप्लिकेट और नॉन-ड्यूप्स के प्रशिक्षण सेट के आधार पर डिडुप्लीकेशन नियम सीखते हैं।
दो प्रकार के कटौती नियम हैं:
- थ्रेशोल्ड विशेषता समानता के लिए एक दूरी फ़ंक्शन के संबंध में जो विशेषता के लिए समझ में आता है। (इन थ्रेसहोल्ड को कैसे सीखा जाता है, इस बारे में कागज स्पष्ट नहीं है।)
- प्रत्येक विशेषता में डुबकी और गैर-दुपट्टे के लिए संभाव्यता वितरण । जैसे
P("Title" values similar | duplicate) ~ 1
और
Pr("State" values are different | duplicate) ~ 0
प्रत्येक जोड़ी के रिकॉर्ड के लिए, हम उनकी प्रत्येक विशेषता की समानता को एक उपयुक्त दूरी मीट्रिक के बराबर करते हैं। यदि किसी विशेषता में इसकी दहलीज के ऊपर समानता है, तो अभिलेखों की जोड़ी को Naive Bayes क्लासिफायर के माध्यम से डुप या गैर-डूप के रूप में वर्गीकृत करने के लिए खिलाया जाता है।
मेरे इस धारणा है कि रिकॉर्ड के लिए है X1 = (a1,b1,c1,d1)
, X2 = (a2,b2,c2,d2)
वे एक समानता वेक्टर गणना S = (s_a, s_b, s_c, s_d)
जहां s_i
सही दूरी मीट्रिक करने के लिए उस विशेषता wrt के लिए समानता है।
मुझे लगता है कि उनके Naive Bayes क्लासिफायर में यह संरचना है:
P(dupe|S) = P(dupe)P(s_a|dupe)(s_b|dupe)(s_c|dupe)P(s_d|dupe) / P(S)
ग्राफ क्लस्टरिंग के साथ इकाई संकल्प
वर्गीकरण चरण के बाद, हमारे पास दिए गए श्रेणी से रिकॉर्ड का एक सबसेट होता है, जो माना जाता है कि युग्मक डुप्लिकेट हैं। इन्हें अब अलग-अलग संस्थाओं में हल करने की आवश्यकता है । यह एक ट्रांज़िटिविटी समस्या को हल करता है: यदि रिकॉर्ड t1 t2 का एक डुप्लिकेट है और t2 t3 का एक डूप है, तो t1 को भी t3 का डूप होना चाहिए। यह कहना है t1, t2, और t3 एक ही इकाई का प्रतिनिधित्व करते हैं ।
इस चरण के लिए एक ग्राफ संरचना का उपयोग किया जाता है। श्रेणी के भीतर, प्रत्येक रिकॉर्ड जो एक ठग हो सकता है वह एक नोड है। जिन नोड्स पर एक दूसरे के प्रति संदेह होने का संदेह है, उनके बीच किनारों हैं। क्लस्टर तब ग्राफ में खोजे जाते हैं और फिर थ्रेसहोल्ड के आधार पर एक साथ विलय कर दिया जाता है कि एक क्लस्टर दूसरे से कितनी मजबूती से जुड़ा हुआ है। यहां क्लस्टर जोड़ियों के तीन उदाहरण दिए गए हैं जो उनकी संगति के आधार पर एक साथ विलय नहीं हो सकते हैं या हो सकते हैं:
c1 c2
x-x-x-----y-y-y
|\|/| |\|/|
x-x-x-----y-y-y Meets similiarity threshold
|/|\| |/|\|
x-x-x-----y-y-y
x-x-x y-y-y
|\|/| |\|/|
x-x-x-----y-y-y Does not meet similarity threshold
|/|\| |/|\|
x-x-x y-y-y
x y
| |
x-----y Meets similarity threshold
| |
x y
जब एल्गोरिथ्म समाप्त हो जाता है, तो प्रत्येक क्लस्टर को श्रेणी के भीतर एक अलग इकाई का प्रतिनिधित्व करना चाहिए । इस प्रक्रिया को पूरा करने के लिए, इस इकाई की विशेषताओं को उसके भीतर के रिकॉर्ड की विशेषताओं से निर्धारित किया जाना चाहिए । नल पहले खारिज कर दिए जाते हैं, फिर आवृत्ति, औसत, मंझला और सबसे लंबे सहित विधियों का उपयोग किया जाता है।
एल्गोरिदम के अनिश्चित होने पर, और विशेषज्ञता के विभिन्न स्तरों के साथ कई विशेषज्ञों का उपयोग कैसे करें, यह जानने के लिए कि कागज डोमेन विशेषज्ञों का उपयोग करने के लिए कुछ तरीके विकसित करता है।