record-linkage

1热度

1回答

如果我有名字的一个载体，说： a = c("tom", "tommy", "alex", "tom", "alexis", "Alex", "jenny", "Al", "michell") 我想使用levenshteinSim或类似的得到这个矢量中的相似性得分。但是，我不想让它自我评分。例如，"tom" #1得分为"tom" #3。并且不要为"tom" #1反对"tom" #1得分，所以不要

0热度

1回答

两张表格之间的模糊匹配

我有两张表格，包含姓名和地址等客户信息。 ID Name Full Address 1 Anurag 123 CA USA 5001 2 Mike ABC CA USA 5002 3 Jason ZYZ TX USA 5003 4 Roshan HBC MS USA 5004 5 Tony UYS VT USA 5005 New_ID Name Full Address 111

1热度

1回答

熊猫模糊检测重复

如何使用模糊匹配大熊猫中检测到重复行（有效）如何找到一列与所有其他的人的副本没有一个巨大的转换的循环row_i toString（），然后将其与所有其他的？

0热度

3回答

Python重复数据删除记录 - 重复数据删除

我想使用https://github.com/datamade/dedupe来删除python中的一些记录。看他们的例子 data_d = {} for row in data: clean_row = [(k, preProcess(v)) for (k, v) in row.items()] row_id = int(row['id']) data_d[row_

2热度

1回答

自动化文本/模糊匹配的最佳机器学习方法

我对机器学习非常熟悉，我在Python中完成了一些项目。我正在寻找如何解决我认为可以实现自动化的以下问题的建议。我组织中的数据质量团队中的用户每天都会收集已手动输入的公司名称（含地址）列表，他必须搜索公司数据库以查找匹配结果，使用他的判断 - 即没有硬性规定。输入的一个例子是：公司名称，地址行1，国家如此，用户实现了公司名称和将其输入的搜索工具。他在哪里得到一份结果列表，并且选择最佳匹配，

1热度

2回答

杜克快速重复数据消除：java.lang.UnsupportedOperationException：操作尚未支持？

我正尝试使用Duke Fast Deduplication Engine在我工作的公司的数据库中搜索一些重复记录。我从这样的命令行运行它： java -cp "C:\utils\duke-0.6\duke-0.6.jar;C:\utils\duke-0.6\lucene-core-3.6.1.jar" no.priv.garshol.duke.Duke --showmatches --verbo

-5热度

1回答

MySQL记录重复数据删除

我只是问在这里什么是在MySQL中重复删除表的最佳方法？我与字段id，name，lastname，user_no，birthday，percentage，然后parent_id一个示例表。我想要的是在percentage和parent_id字段中添加一个值，该字段基于哪个记录是重复的以及它们的相似程度。我只是要求一种方法。检查每个领域两次以检查比赛是否有效？或者，还有另一种方式吗？

3热度

2回答

如何将机器学习应用于模糊匹配

假设我有一个MDM系统（主数据管理），其主要应用是检测和防止重复记录。每当销售代表进入系统中的新客户时，我的MDM平台会对现有记录进行检查，计算一对单词或短语或属性之间的Levenshtein或Jaccard或XYZ距离，考虑权重和系数以及输出相似度分数等等。您的典型模糊匹配场景。我想知道是否有意义应用机器学习技术来优化匹配输出，即找到最大精度的重复。而它最有意义的地方在哪里。优化属性的

4热度

1回答

使用重复数据删除蟒蛇时资源使用率低

我需要在大型数据集中找到重复项，所以我正在测试dedupe python库。我知道它建议用于小数据集，所以我认为使用好机器可以提高性能。我有一台具有56 GB RAM的机器，对于具有200000行的数据集，我正在运行类似于"csv_example"的测试。它可以工作，但内存使用率非常低，所以处理（CPU）。这似乎需要很长时间阻塞阶段： INFO:dedupe.blocking:10000, 1

0热度

3回答

数据结构：重复数据删除产品目录

我正在考虑我的策略合并（和重复删除）多个目录的产品。我将使用一个非sql数据库，并且需要查询部分重叠产品的N个目录。某些方面，如分类，标签，说明书等必须标准化，我需要（通过UPC例如在每个目录产品重复数据删除）来跟踪目录库中包含每一个独特的项目。我目前的想法是将个人目录导入到自己的表，然后用自建的算法，以确定“类似”的项目，进行归一化，然后创建一个最终的“大师”表，其中包含标准化&去重