2011-06-10 60 views
0

我正在查找重复记录。我有一个属性表,包括街道,号码,城市,州,县和邮编。他们根据位置进行地理编码,但数据中有一些漏洞。问题是如果他们犯了一个简单的输入错误或忽略某些字段,他们将不会出现匹配。全文地址匹配

截至目前,直线比较和LIKE并没有真正做得很好。但是Jaro Winkler和类似的编辑距离算法运行时性能极差。

+0

是的,听起来是正确的。还要看看levenshtein距离公式。几年前,为模糊字符串匹配实现了其中一个。非常适合将请求与现有数据进行匹配,但确实需要人工干预。 – Fosco 2011-06-10 17:03:20

+0

如果它们是美国地址,则可以使用USPS地址标准化API对其进行标准化:http://www.usps.com/webtools/address.htm – krubo 2011-06-11 17:14:33

回答

0

SmartyStreets提供重复数据删除作为其地址验证过程的一部分。只需将数据上传到分隔文本文件中,并将重复项标记在您下载的output file上。对于每个您处理的文件总是有一个免费的预览版,所以您在对结果满意之前不必购买任何内容。我是SmartyStreets的软件开发人员,并帮助编写应用程序。我对它的功能和易用性都很满意。我们也有一个API您可以使用,但重复数据删除将是您的责任(只需比较完整的12位交付点条形码(用作地址的唯一标识符))。