मुझे पहले नाम, अंतिम नाम और जन्म वर्ष के आधार पर 2 डेटासेट में रिकॉर्ड जोड़ने का शौक है। यह EM एल्गोरिथ्म के साथ संभव हो सकता है, और यदि हां, तो कैसे?
उदाहरण के रूप में 1 में निम्नलिखित रिकॉर्ड पर विचार करें: कार्ल मैकार्थी, 1967। मैं 2 के डेटासेट में सभी रिकॉर्ड के माध्यम से खोज करूंगा, और 1 नाम और कार्ल के बीच एक जारो-विंकलर दूरी और आखिरी नाम और मैककार्थी के बीच एक जारो-विंकलर दूरी निर्दिष्ट करूंगा। ये दूरी संभावित हैं क्योंकि जन्म के वर्षों के बीच की दूरी है। हम उन 3 संभावनाओं को मिलाते हैं (गुणा? औसत?) 1 में।
अब निर्णय नियम भाग आता है। आइए हम सभी संभावनाओं को उच्चतम से निम्नतम तक रैंक करते हैं। सबसे पहले, हम पी (पहला हिट मैच है)> = दहलीज चाहते हैं। दूसरा, हम यह भी चाहते हैं कि पी (पहला हिट मैच है) / पी (दूसरा हिट मैच है)> = थ्रेशोल्ड यदि पी (दूसरा हिट मैच है) मौजूद है। तीसरा, हम चाहते हैं कि इस दूसरे डाटासेट में पहला हिट कार्ल मैकार्थी, 1967 के साथ 1 डाटासेट में 1 से अधिक व्यक्ति के लिए मैच न हो।
इन थ्रेसहोल्ड को कैसे निर्धारित किया जा सकता है?
मैं स्टाटा और / या पर्ल में दृष्टिकोण पसंद करता हूं।
उदाहरण के लिए देखें:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf
(हालांकि इसके साथ, मैं अभी भी पूरी तरह से क्यों या कैसे का पालन नहीं करता हूं, और इनपुट और आउटपुट क्या हैं, साथ ही मान्यताओं और वे कितने प्रतिबंधक हैं)।