record-linkage

    1热度

    1回答

    我正在寻找一些与MS SQL Server兼容的重复数据删除软件。我有一个相当广泛和杂乱的表格,其中包含来自世界各地的所有不同语言的地址。该表设置为处理作为父/子记录的模糊,因此需要处理匹配的一些功能(即,不仅仅是删除模糊)。 编辑:这里的结构 ParentID | MasterID | PropertyName | Address1 | Address2 | PostalCode | City

    1热度

    1回答

    我有一个相当小的结构化记录坐落在数据库中的语料库。给定一条记录中包含的一小部分信息,通过一个Web表单提交(与表格模式的结构相同)(我们称之为测试记录),我需要快速绘制一份记录最有可能与测试记录匹配,并提供关于搜索条件与记录匹配程度的信心估计。此搜索的主要目的是发现是否有人试图输入与语料库中的记录重复的记录。有一个合理的机会,测试记录将是一个愚蠢的,并有一个合理的机会,测试记录不会是一个骗局。 记

    0热度

    1回答

    我的部门处理收集和显示来自各种公司内部数据源的数据,以用于数据挖掘/公司仪表板。 我们遇到的一个重大挑战是跨部门跨地参考地名。我们是一个相当大的组织,具有不同利益的部门可以为任何一个地点进行自己的报告。一般而言,地名在跨部门报告中的EXACT名称中存在很大差异。当位置经过一些改造 美妙的餐厅 美妙的餐厅 绝佳˚F&乙 ..:例如,一个位置可被称为Fabulous Cafe' 甚至Pr ofit中心

    2热度

    2回答

    Fellegi-Sunter有没有开源的实现?

    3热度

    7回答

    我有一个个人数据表的几个来源,像这样: SOURCE 1 ID, FIRST_NAME, LAST_NAME, FIELD1, ... 1, jhon, gates ... SOURCE 2 ID, FIRST_NAME, LAST_NAME, ANOTHER_FIELD1, ... 1, jon, gate ... SOURCE 3 ID, FIRST_NAME, LAST_N

    5热度

    2回答

    我有一个问题是有点高的水平,所以我会尽量做到尽可能具体。 我正在做很多研究,涉及将不同的数据集合与引用同一实体(通常是公司或金融安全性)的头信息相结合。该记录链接通常涉及标题信息,其中该名称是唯一常见的主要标识符,但是其中通常可获得一些次要信息(例如城市和州,操作日期,相对大小等)。这些比赛通常是一对多的,但可能是一对一或甚至多对多。我通常手工完成这个匹配,或者对清理过的子串进行非常基本的文本比较

    0热度

    2回答

    请给我建议Java产品的工作(我宁愿开源),它确实做到: 重复数据删除 重复数据删除得分 允许自定义重复数据删除规则和评分规则。 请看例子: 我有一个输入上演名为“INPUT_DB” 我有一个表命名为“INPUT_PERSONS”数据库 有此表中的几个字段: ID(一些无意义的代理主键) FIRST_NAME LAST_NAME SECOND_NAME BIRTH_DATE PASSPORT_SE