2014-09-05 136 views
2

我使用difflib SequenceMatcher(ratio()方法)来定义文本文件之间的相似度。虽然difflib比较快速以比较一小组文本文件,例如平均70 kb的10个文件比较(46次比较)大约需要80秒。Python的difflib SequenceMatcher加速

这里的问题是,我有一个3000 txt文件(平均75 kb)的集合,对SequenceMatcher完成比较作业需要多少时间的原始估计是80天!

我尝试过“real_quick_ratio()”和“quick_ratio()”方法,但它们不适合我们的需要。

有什么办法可以加快比较过程吗? 如果不是,还有没有其他更快的方法来完成这样的任务?即使它不在Python中。

回答