2012-02-08 40 views
1

在C#中的Lucene中,我试图找出索引是否包含重复文件或几乎完全相同,以查看是否需要用新文件替换。要做到这一点,我想出了一个办法,可以使用MoreLikeThis类,然后获取相关文档的列表。然后比较这些相关文档,看看它们是否与我添加的文档相匹配 - 比如说90%的匹配。然后程序会询问用户是否重复以及要保留哪一个。Lucene中两个文件之间的区别

  1. 这可以使用Lucene来完成吗? ...这是去做这件事的最好方法吗?
  2. 如果不能这样做,是使用Levenshtein Distance Algorithm比较两个文件以查看它们是否有类似匹配的最有效方法?

谢谢!

回答

0

用于将文档与lucene进行比较,您还可以使用TermFreqVector并将TermVector保存在索引中。你也可以计算Dirichlet与这个vecotr的相似度。