我的部门处理收集和显示来自各种公司内部数据源的数据,以用于数据挖掘/公司仪表板。交叉参考数据时使用“模糊搜索”
我们遇到的一个重大挑战是跨部门跨地参考地名。我们是一个相当大的组织,具有不同利益的部门可以为任何一个地点进行自己的报告。一般而言,地名在跨部门报告中的EXACT名称中存在很大差异。当位置经过一些改造
- 美妙的餐厅
- 美妙的餐厅
- 绝佳˚F&乙
- ..:例如,一个位置可被称为Fabulous Cafe'
- 甚至Pr ofit中心12345ABC
所以我的问题是在协调在我们自己的数据库,这些代码名称存在哪些最佳实践?假设目前我的部门没有能力按照共同的层次结构标准(这将是最佳解决方案)来统一组织。目前我们的做法是维护不断增长的地名的参考表,然后再引用到我们自己的命名标准中。这使我们能够保持与我们数据的历史一致性。
交叉引用位置时,实施某种“模糊搜索”是否可行/可行?例如,可能会忽略像“the”这样的单词的实例,或者同等对待“cafe”和“restaurant”(基于某些预先定义的逻辑)。
我当然不认为我们能够算法地解释我们遇到的所有随机命名约定,但足以说明它们中的一些/大部分?
可能的,但是它够好吗?这将取决于商界人士对此的看法。这里有一个模糊的类似问题: http://stackoverflow.com/questions/1983717/finding-approximately-duplicate-database-records-using-t-sql/1985034#1985034 – 2012-02-10 18:16:05