我有一个个人名称,地址,电话号码等数据集。有些人多次出现,略有变化的名称/和/或收件人和/或电话号码。假数据片段如下所示:固定字符串变量与不同的拼写等
first last address phone
Jimmy Bamboo P.O. Box 1190 xxx-xx-xx00
Jimmy W. Bamboo P.O. Box 1190 xxx-xx-xx22
James West Bamboo P.O. Box 219 xxx-66-xxxx
...等等。有时候,E.被拼写成东,街和街,有时候不是。
我需要做的就是运行几乎120,000行的数据,以便根据姓名,地址和电话号码来识别每个独特的个人。任何人都有一个线索,可以在不手动运行每条记录的情况下如何完成这项工作?我越盯着它,我越觉得它不可能,不作任何判断的呼吁,并说至少有两个或三个领域是相同的对待这个单一的个人。
谢谢!!
Ani
这听起来像'正expressions'工作。尽管单独使用正则表达式并不容易。(例如,您可以轻松地匹配任何类似于Jxxxxxx Bamboo的任何内容,但它也会与Jacintha Bamboo相匹配。)因此,您可能必须找到常用昵称列表。如果你看看R的“文本挖掘”工具,可能有一些函数可以自动处理这类东西? –
2013-02-28 00:08:05
艰难的路线,试图至少修复名称,以便它们在记录中保持一致。 – Ani 2013-02-28 00:09:14
我会先找到与特定字段完全匹配的条目,然后检查其他字段是否大致相同。在开始担心模糊匹配之前,请查看您可以使用精确匹配减少数据设置的数量。 – Marius 2013-02-28 00:09:24