मैं यह जानना चाहूंगा कि डाक के पतों का मिलान कैसे किया जाए जब उनका प्रारूप अलग-अलग हो या जब उनमें से एक गलत लिखा हो।
अब तक मैंने अलग-अलग समाधान पाए हैं लेकिन मुझे लगता है कि वे काफी पुराने हैं और बहुत कुशल नहीं हैं। मुझे यकीन है कि कुछ बेहतर तरीके मौजूद हैं, इसलिए यदि आपके पास मेरे पढ़ने के लिए संदर्भ हैं, तो मुझे यकीन है कि यह एक ऐसा विषय है जो कई व्यक्तियों को दिलचस्पी ले सकता है।
मैंने पाया समाधान (उदाहरण आर में हैं):
Levenshtein दूरी, जो आपके द्वारा एक शब्द को दूसरे में बदलने के लिए आपके द्वारा डाले जाने, हटाने या बदलने के लिए वर्णों की संख्या के बराबर होती है।
agrep("acusait", c("accusait", "abusait"), max = 2, value = TRUE)
## [1] "accusait" "abusait"
फोनेम्स की तुलना
library(RecordLinkage)
soundex(x<-c('accusait','acusait','abusait'))
## [1] "A223" "A223" "A123"
वर्तनी सुधारक का उपयोग (अंततः पीटर नॉरविग की तरह एक बायेसियन) , लेकिन मुझे पता है कि बहुत कुशल नहीं है।
मैंने Google के सुझावों का उपयोग करने के बारे में सोचा था, लेकिन इसी तरह, यह व्यक्तिगत डाक पते पर बहुत कुशल नहीं है।
आप एक मशीन सीखने की निगरानी दृष्टिकोण का उपयोग करने की कल्पना कर सकते हैं, लेकिन आपको ऐसा करने के लिए उपयोगकर्ताओं के गलत अनुरोधों को संग्रहीत करने की आवश्यकता है जो मेरे लिए कोई विकल्प नहीं है।