record-linkage

1热度

1回答

1热度

1回答

结构化数据的模糊匹配

我有一个相当小的结构化记录坐落在数据库中的语料库。给定一条记录中包含的一小部分信息，通过一个Web表单提交（与表格模式的结构相同）（我们称之为测试记录），我需要快速绘制一份记录最有可能与测试记录匹配，并提供关于搜索条件与记录匹配程度的信心估计。此搜索的主要目的是发现是否有人试图输入与语料库中的记录重复的记录。有一个合理的机会，测试记录将是一个愚蠢的，并有一个合理的机会，测试记录不会是一个骗局。记

0热度

1回答

交叉参考数据时使用“模糊搜索”

我的部门处理收集和显示来自各种公司内部数据源的数据，以用于数据挖掘/公司仪表板。我们遇到的一个重大挑战是跨部门跨地参考地名。我们是一个相当大的组织，具有不同利益的部门可以为任何一个地点进行自己的报告。一般而言，地名在跨部门报告中的EXACT名称中存在很大差异。当位置经过一些改造美妙的餐厅美妙的餐厅绝佳˚F&乙 ..：例如，一个位置可被称为Fabulous Cafe' 甚至Pr ofit中心

2热度

2回答

Fellegi-Sunter是否有开源实现？

Fellegi-Sunter有没有开源的实现？

3热度

7回答

如何确定是否在每个源记录，代表同一个人

我有一个个人数据表的几个来源，像这样： SOURCE 1 ID, FIRST_NAME, LAST_NAME, FIELD1, ... 1, jhon, gates ... SOURCE 2 ID, FIRST_NAME, LAST_NAME, ANOTHER_FIELD1, ... 1, jon, gate ... SOURCE 3 ID, FIRST_NAME, LAST_N

5热度

2回答

模糊记录与多列信息匹配

我有一个问题是有点高的水平，所以我会尽量做到尽可能具体。我正在做很多研究，涉及将不同的数据集合与引用同一实体（通常是公司或金融安全性）的头信息相结合。该记录链接通常涉及标题信息，其中该名称是唯一常见的主要标识符，但是其中通常可获得一些次要信息（例如城市和州，操作日期，相对大小等）。这些比赛通常是一对多的，但可能是一对一或甚至多对多。我通常手工完成这个匹配，或者对清理过的子串进行非常基本的文本比较

0热度

2回答

删除与得分框架/应用/服务器上的Java与数据库输入分期

请给我建议Java产品的工作（我宁愿开源），它确实做到：重复数据删除重复数据删除得分允许自定义重复数据删除规则和评分规则。请看例子：我有一个输入上演名为“INPUT_DB” 我有一个表命名为“INPUT_PERSONS”数据库有此表中的几个字段： ID（一些无意义的代理主键） FIRST_NAME LAST_NAME SECOND_NAME BIRTH_DATE PASSPORT_SE