1
在C#中的Lucene中,我试图找出索引是否包含重复文件或几乎完全相同,以查看是否需要用新文件替换。要做到这一点,我想出了一个办法,可以使用MoreLikeThis类,然后获取相关文档的列表。然后比较这些相关文档,看看它们是否与我添加的文档相匹配 - 比如说90%的匹配。然后程序会询问用户是否重复以及要保留哪一个。Lucene中两个文件之间的区别
- 这可以使用Lucene来完成吗? ...这是去做这件事的最好方法吗?
- 如果不能这样做,是使用Levenshtein Distance Algorithm比较两个文件以查看它们是否有类似匹配的最有效方法?
谢谢!