2013-05-14 80 views
0

我从几个文件(excel文件)导入一组数据,该文件每天保存没有标识符的记录。然后将数据需求存储在关系数据库(Oracle)中。如何导入和合并来自多个不同来源的类似(但不等于)文本

问题是,文本可能会略有不同,从每个资源,因为没有唯一的标识符我需要以某种方式基于我的文本值的比较。

咱们例如说,我从不同来源的信息:

Source A: The Dark Knight 
Source B: Batman The Dark Knight 
Source C: The Dark Knight 2008 
Source D: The Dark Knight Rises 

如果数据库已经与ITEM_NAME按住某个项目的“黑暗骑士”,然后当我从源A,B导入此线,C我会得到一个“完全匹配”,但不适用于D,因为这是一部不同的电影。

事项:

  • 的过程不是100%自动化,所以如果有不匹配就会有一个用户交互来手动匹配或创建一个新的记录。
  • 虽然有一个用户交互,我想保持它最低(特别是在用户手动匹配项目后)。

我该如何去解决它,而不用为每个项目添加大量同义词的数据库?

回答

0

更新2013年5月21日

我发现:http://matpalm.com/resemblance/

它的使用捷卡系数的。尽管我不确定它对于我的情况来说是最好的,但是会导致复杂性,匹配m x n次,其中m是导入记录的大小,n是可能长达数万条记录的总数据库记录。

相关问题