我有一个关于Lucene/Solr的问题。Lucene/Solr近似(公司)名称匹配
我想解决一般(公司)名称匹配问题。
让我介绍一个过于简单的例子:
我们的名字即,list_A和list_B两个(可能大)名单。 我们希望找到两个列表的交集,但两个列表中的名称可能并不总是完全匹配。对于list_A中的每个不同名称,我们都希望报告list_B中的一个或多个最佳匹配。
我听说Lucene/Solr可以解决这个问题。你能告诉我这是真的吗?如果是这样,请给我一些最小的工作示例。
感谢和问候, Dibyendu
Arun/femtoRgon,我已经考虑了基于编辑距离的方法。我想尝试Lucene/Solr以期改善结果。根据你的经验,请让我知道改善的机会。 – 2013-04-29 20:11:38
你正在吠叫错误的树。如果您对编辑距离比较不满意,请尝试使用其他算法。想想你想要完成的比较。我不知道你需要什么,但是因为你匹配的名字,我怀疑像Metaphone(它是基于语音相似性,而不是编辑距离)的东西可能更适合。 – femtoRgon 2013-04-29 20:22:56