假设我有一个MDM系统(主数据管理),其主要应用是检测和防止重复记录。如何将机器学习应用于模糊匹配
每当销售代表进入系统中的新客户时,我的MDM平台会对现有记录进行检查,计算一对单词或短语或属性之间的Levenshtein或Jaccard或XYZ距离,考虑权重和系数以及输出相似度分数等等。
您的典型模糊匹配场景。
我想知道是否有意义应用机器学习技术来优化匹配输出,即找到最大精度的重复。
而它最有意义的地方在哪里。
- 优化属性的权重?
- 通过预测匹配结果来增加算法的置信度?
- 了解否则我会配置到算法中的匹配规则?
- 别的东西?
还有关于这个话题的this excellent answer,但我不太清楚这个家伙是否真的使用了ML。
另外我的理解是,加权模糊匹配已经是一个很好的解决方案,甚至可能从财务角度来看,因为无论何时您部署这样的MDM系统,您都必须进行一些分析和预处理,无论是手动编码匹配规则或训练ML算法。
所以我不确定ML的加入会代表一个重要的价值主张。
任何想法表示赞赏。
我的直觉是,你将获得的增量收益并不合理。有趣的是,使用自然语言处理/理解在搜索可能的重复项时提供额外的上下文,但这不会是一个小项目! – ImDarrenG
如果你确实追求这个项目,你需要注意的一件事就是你的任务本质上是二元结果(匹配vs不匹配),再加上潜在的不平衡数据集(比匹配更多的不匹配)。你可能会得到一台看起来非常准确的机器,但实际上只是告诉你你已经知道了什么。 – ImDarrenG
你在谈论过度训练集,我想。这是潜在的问题之一,使我不敢在这样的系统中引入ML。 – TXV