3

假设我有一个MDM系统(主数据管理),其主要应用是检测和防止重复记录。如何将机器学习应用于模糊匹配

每当销售代表进入系统中的新客户时,我的MDM平台会对现有记录进行检查,计算一对单词或短语或属性之间的Levenshtein或Jaccard或XYZ距离,考虑权重和系数以及输出相似度分数等等。

您的典型模糊匹配场景。

我想知道是否有意义应用机器学习技术来优化匹配输出,即找到最大精度的重复。
而它最有意义的地方在哪里。

  • 优化属性的权重?
  • 通过预测匹配结果来增加算法的置信度?
  • 了解否则我会配置到算法中的匹配规则?
  • 别的东西?

还有关于这个话题的this excellent answer,但我不太清楚这个家伙是否真的使用了ML。

另外我的理解是,加权模糊匹配已经是一个很好的解决方案,甚至可能从财务角度来看,因为无论何时您部署这样的MDM系统,您都必须进行一些分析和预处理,无论是手动编码匹配规则或训练ML算法。

所以我不确定ML的加入会代表一个重要的价值主张。

任何想法表示赞赏。

+0

我的直觉是,你将获得的增量收益并不合理。有趣的是,使用自然语言处理/理解在搜索可能的重复项时提供额外的上下文,但这不会是一个小项目! – ImDarrenG

+1

如果你确实追求这个项目,你需要注意的一件事就是你的任务本质上是二元结果(匹配vs不匹配),再加上潜在的不平衡数据集(比匹配更多的不匹配)。你可能会得到一台看起来非常准确的机器,但实际上只是告诉你你已经知道了什么。 – ImDarrenG

+0

你在谈论过度训练集,我想。这是潜在的问题之一,使我不敢在这样的系统中引入ML。 – TXV

回答

1

使用机器学习的主要优点是节省时间。

在给定足够时间的情况下,您很可能会调整权重并提出对您的特定数据集非常有用的匹配规则。机器学习方法可能难以超越为特定数据集定制的手工制作系统。

但是,这可能需要几天时间才能手工制作出好的匹配系统。如果您使用现有ML作为匹配工具,如Dedupe,那么可以在一小时内学习好的权重和规则(包括设置时间)。

因此,如果您已经构建了一个在您的数据上表现良好的匹配系统,则可能不值得对ML进行调查。但是,如果这是一个新的数据项目,那么它几乎肯定会是。

+0

是的,我有一个可以在不同数据集上工作的匹配系统。我会检查出重复。在一个侧面说明中,我不明白为什么我的问题是downvoted,所以谢谢你花时间回答。 – TXV

0

传统上,模糊记录匹配软件遭受需要巨大的用户参与项目参数化和文书审查。要求用户提供各种输入参数和阈值,以提供机器学习的匹配和不匹配的例子。在这两种情况下,大量的用户参与和专业知识是成功分析的先决条件。 使用无监督机器学习的主要价值在于让软件自动解决问题,无需用户参与。 至少有一个这样的模糊匹配软件利用机器学习,被称为“ReMaDDer”:http://remaddersoft.wixsite.com/remadder