我熟悉Python的nltk.metrics.distance
模块,它通常用于计算两个字符串的编辑距离。Python中基于令牌的编辑距离?
我感兴趣的是一个函数,它计算这样的距离,但不是像通常那样按字母顺序而是按照符号来计算。我的意思是,你可以只替换/添加/删除整个令牌(而不是字符)。
定期编辑距离和所需的我的版本标记化的例子:
> char_dist("aa bbbb cc",
"aa b cc")
3 # add 'b' character three-times
> token_dist("aa bbbb cc",
"aa b cc")
1 # replace 'bbbb' token with 'b' token
有已经有一些功能,即可以计算在Python token_dist
?我宁愿使用已经实现和测试的东西,而不是写自己的代码。感谢您的提示。
太棒了!谢谢 – petrbel