रिकॉर्ड लिंकिंग के लिए EM एल्गोरिथ्म का उपयोग करना

9

मुझे पहले नाम, अंतिम नाम और जन्म वर्ष के आधार पर 2 डेटासेट में रिकॉर्ड जोड़ने का शौक है। यह EM एल्गोरिथ्म के साथ संभव हो सकता है, और यदि हां, तो कैसे?

उदाहरण के रूप में 1 में निम्नलिखित रिकॉर्ड पर विचार करें: कार्ल मैकार्थी, 1967। मैं 2 के डेटासेट में सभी रिकॉर्ड के माध्यम से खोज करूंगा, और 1 नाम और कार्ल के बीच एक जारो-विंकलर दूरी और आखिरी नाम और मैककार्थी के बीच एक जारो-विंकलर दूरी निर्दिष्ट करूंगा। ये दूरी संभावित हैं क्योंकि जन्म के वर्षों के बीच की दूरी है। हम उन 3 संभावनाओं को मिलाते हैं (गुणा? औसत?) 1 में।

अब निर्णय नियम भाग आता है। आइए हम सभी संभावनाओं को उच्चतम से निम्नतम तक रैंक करते हैं। सबसे पहले, हम पी (पहला हिट मैच है)> = दहलीज चाहते हैं। दूसरा, हम यह भी चाहते हैं कि पी (पहला हिट मैच है) / पी (दूसरा हिट मैच है)> = थ्रेशोल्ड यदि पी (दूसरा हिट मैच है) मौजूद है। तीसरा, हम चाहते हैं कि इस दूसरे डाटासेट में पहला हिट कार्ल मैकार्थी, 1967 के साथ 1 डाटासेट में 1 से अधिक व्यक्ति के लिए मैच न हो।

इन थ्रेसहोल्ड को कैसे निर्धारित किया जा सकता है?

मैं स्टाटा और / या पर्ल में दृष्टिकोण पसंद करता हूं।

उदाहरण के लिए देखें:

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf

(हालांकि इसके साथ, मैं अभी भी पूरी तरह से क्यों या कैसे का पालन नहीं करता हूं, और इनपुट और आउटपुट क्या हैं, साथ ही मान्यताओं और वे कितने प्रतिबंधक हैं)।

— user1690130
स्रोत

क्या आपने स्टैटा में रिकलिंक का उपयोग करने के बारे में सोचा है?

— दिमित्री वी। मास्टरोव

4

बिल्कुल, EM एल्गोरिथ्म का उपयोग संभाव्य लिंकिंग के लिए किया गया है। इस विषय पर बहुत सारे लेख हैं, विंकलर द्वारा निम्नलिखित सैद्धांतिक विवरण के बारे में उपयोगी हो सकता है:

http://www.census.gov.edgekey.net/srd/papers/pdf/rr2000-05.pdf

इसके अलावा केविन कैम्पबेल द्वारा विकसित डेटा लिंकिंग सॉफ्टवेयर यहां पहले से ही उपलब्ध है:

http://the-link-king.com/

सॉफ्टवेयर को आसानी से डाउनलोड किया जा सकता है और केविन कैम्पबेल शुल्क के लिए समर्थन प्रदान करता है। कोड एसएएस में लिखा गया है, इसलिए आपको आधार एसएएस पैकेज की आवश्यकता होगी।

— RobertF
स्रोत

धन्यवाद! मैंने विंकलर द्वारा 2 पेपर पढ़े हैं लेकिन उन्हें पूरी तरह से नहीं समझा। मैंने उस कागज से ईएम को इकट्ठा किया। इसके अलावा, मुझे नहीं पता कि एसएएस का उपयोग कैसे करें। मुझे पता है कि पर्ल में एक ईएम मॉड्यूल है, जिसका मैं उपयोग करूंगा, लेकिन मुझे यकीन नहीं है कि ईएम उचित क्यों है या इसका उपयोग कैसे किया जाए। वैचारिक रूप से, EM उपरोक्त प्रश्नों का उत्तर कैसे देता है?

— user1690130

मेरी समझ यह है कि ईएम एल्गोरिथ्म एक सकारात्मक मैच की संभावना को मॉडलिंग करने के लिए उपयोगी है क्योंकि यह दो अलग-अलग रिकॉर्डों को गलत तरीके से जोड़ने या दो मिलान रिकॉर्डों को गलत तरीके से जोड़ने की अज्ञात (या "अव्यक्त") संभावनाओं को ध्यान में रखता है। इन संभावनाओं का अनुमान एल्गोरिथ्म के प्रत्येक चरण के दौरान परिष्कृत किया जाता है ताकि संभावना फ़ंक्शन को अधिकतम किया जा सके।

— राबर्टएफ

मैं क्या इनपुट प्रदान करता हूँ? एकतरफा जांच और एक लेबल? और यह इष्टतम मैच बाहर थूकता है?

— user1690130

0

एक सॉफ्टवेयर RELAIS है जो रिकॉर्ड लिंकेज करता है:

6) प्रोबेबिलिस्टिक रिकॉर्ड लिंकेज (ईएम (एक्सपेक्टेशन-मैक्सिमाइजेशन) के माध्यम से फेलगेली और सन्टर मॉडल मापदंडों का अनुमान।

RELAIS को Java और R में लागू किया गया है और इसमें डेटाबेस आर्किटेक्चर (MySQL) है।

ईएसएसनेट डेटा इंटीग्रेशन प्रोजेक्ट से रिकॉर्ड लिंकेज के बारे में कुछ और दस्तावेज उपलब्ध हैं ।

— djhurio
स्रोत