Q

Python的difflib SequenceMatcher加速

2014-09-05 136 views 2 likes

2

我使用difflib SequenceMatcher（ratio（）方法）来定义文本文件之间的相似度。虽然difflib比较快速以比较一小组文本文件，例如平均70 kb的10个文件比较（46次比较）大约需要80秒。Python的difflib SequenceMatcher加速

这里的问题是，我有一个3000 txt文件（平均75 kb）的集合，对SequenceMatcher完成比较作业需要多少时间的原始估计是80天！

我尝试过“real_quick_ratio（）”和“quick_ratio（）”方法，但它们不适合我们的需要。

有什么办法可以加快比较过程吗？如果不是，还有没有其他更快的方法来完成这样的任务？即使它不在Python中。

2014-09-05 anarchos78

A

回答

2

可以使用pypy

http://pypy.org/

得到一个小加速

2015-06-30 07:32:57 ark

相关问题