如何将机器学习应用于模糊匹配

假设我有一个MDM系统（主数据管理），其主要应用是检测和防止重复记录。如何将机器学习应用于模糊匹配

每当销售代表进入系统中的新客户时，我的MDM平台会对现有记录进行检查，计算一对单词或短语或属性之间的Levenshtein或Jaccard或XYZ距离，考虑权重和系数以及输出相似度分数等等。

您的典型模糊匹配场景。

我想知道是否有意义应用机器学习技术来优化匹配输出，即找到最大精度的重复。
而它最有意义的地方在哪里。

优化属性的权重？
通过预测匹配结果来增加算法的置信度？
了解否则我会配置到算法中的匹配规则？
别的东西？

还有关于这个话题的this excellent answer，但我不太清楚这个家伙是否真的使用了ML。

另外我的理解是，加权模糊匹配已经是一个很好的解决方案，甚至可能从财务角度来看，因为无论何时您部署这样的MDM系统，您都必须进行一些分析和预处理，无论是手动编码匹配规则或训练ML算法。

所以我不确定ML的加入会代表一个重要的价值主张。

任何想法表示赞赏。

来源

2017-04-12 TXV

我的直觉是，你将获得的增量收益并不合理。有趣的是，使用自然语言处理/理解在搜索可能的重复项时提供额外的上下文，但这不会是一个小项目！ – ImDarrenG

如果你确实追求这个项目，你需要注意的一件事就是你的任务本质上是二元结果（匹配vs不匹配），再加上潜在的不平衡数据集（比匹配更多的不匹配）。你可能会得到一台看起来非常准确的机器，但实际上只是告诉你你已经知道了什么。 – ImDarrenG

你在谈论过度训练集，我想。这是潜在的问题之一，使我不敢在这样的系统中引入ML。 – TXV

使用机器学习的主要优点是节省时间。

在给定足够时间的情况下，您很可能会调整权重并提出对您的特定数据集非常有用的匹配规则。机器学习方法可能难以超越为特定数据集定制的手工制作系统。

但是，这可能需要几天时间才能手工制作出好的匹配系统。如果您使用现有ML作为匹配工具，如Dedupe，那么可以在一小时内学习好的权重和规则（包括设置时间）。

因此，如果您已经构建了一个在您的数据上表现良好的匹配系统，则可能不值得对ML进行调查。但是，如果这是一个新的数据项目，那么它几乎肯定会是。

来源

2017-04-14 17:26:48 fgregg

是的，我有一个可以在不同数据集上工作的匹配系统。我会检查出重复。在一个侧面说明中，我不明白为什么我的问题是downvoted，所以谢谢你花时间回答。 – TXV

传统上，模糊记录匹配软件遭受需要巨大的用户参与项目参数化和文书审查。要求用户提供各种输入参数和阈值，以提供机器学习的匹配和不匹配的例子。在这两种情况下，大量的用户参与和专业知识是成功分析的先决条件。使用无监督机器学习的主要价值在于让软件自动解决问题，无需用户参与。至少有一个这样的模糊匹配软件利用机器学习，被称为“ReMaDDer”：http://remaddersoft.wixsite.com/remadder

来源

2017-07-23 07:31:05 zlatko

如何将机器学习应用于模糊匹配

回答

相关问题