0

我的部门处理收集和显示来自各种公司内部数据源的数据,以用于数据挖掘/公司仪表板。交叉参考数据时使用“模糊搜索”

我们遇到的一个重大挑战是跨部门跨地参考地名。我们是一个相当大的组织,具有不同利益的部门可以为任何一个地点进行自己的报告。一般而言,地名在跨部门报告中的EXACT名称中存在很大差异。当位置经过一些改造

  • 美妙的餐厅
  • 美妙的餐厅
  • 绝佳˚F&乙
  • ..:例如,一个位置可被称为Fabulous Cafe'
  • 甚至Pr ofit中心12345ABC

所以我的问题是在协调在我们自己的数据库,这些代码名称存在哪些最佳实践?假设目前我的部门没有能力按照共同的层次结构标准(这将是最佳解决方案)来统一组织。目前我们的做法是维护不断增长的地名的参考表,然后再引用到我们自己的命名标准中。这使我们能够保持与我们数据的历史一致性。

交叉引用位置时,实施某种“模糊搜索”是否可行/可行?例如,可能会忽略像“the”这样的单词的实例,或者同等对待“cafe”和“restaurant”(基于某些预先定义的逻辑)。

我当然不认为我们能够算法地解释我们遇到的所有随机命名约定,但足以说明它们中的一些/大部分?

+0

可能的,但是它够好吗?这将取决于商界人士对此的看法。这里有一个模糊的类似问题: http://stackoverflow.com/questions/1983717/finding-approximately-duplicate-database-records-using-t-sql/1985034#1985034 – 2012-02-10 18:16:05

回答

1

关键字是。重新标记。模糊搜索在中很常见,在这里绝对有用。但是,您提供的示例可能对于自动集成来说过于困难,因此您需要用户干预并正确使用

我已经成功地使用模糊匹配重新导入音乐播放列表。即使从互联网上。标题和艺术家通常会提供足够的数据来为我的音乐收藏做一个相当可靠的模糊匹配(至少如果我有歌曲)。

但是,如果你基本上只有一个单词,模糊匹配将不可靠,就像在你的“神话般的餐厅”例子中一样。

一个很好的模糊匹配将使用词干并具有常用词和同义词的概念。所以“餐厅”和“咖啡厅”可能不会被认为是重要的。关键是要有足够的数据。一个单词可能不足以识别位置。