的四克字TEXT的非对称填充是的n-gram在NLTK
>>generated_ngrams = ngrams('TEXT', 4, pad_left=True, pad_right=True, left_pad_symbol=' ', right_pad_symbol=' ')
>>list(generated_ngrams)
[(' ', ' ', ' ', 'T'), (' ', ' ', 'T', 'E'), (' ', 'T', 'E', 'X'), ('T', 'E', 'X', 'T'), ('E', 'X', 'T', ' '), ('X', 'T', ' ', ' '), ('T', ' ', ' ', ' ')]
根据我的输出应该是_TEX, TEXT, EXT__, XT__
。 根据这个网站(http://cloudmark.github.io/Language-Detection/)输出是_TEX, TEXT, EXT_, XT__, T___
它也继续说:“一般来说,一个长度为k的字符串,用空白填充,将有k + 1个二元组,k + 1个三元组,k +1四分法等等。“
基于我从Python获得的输出,我不认为这是有效的。
请解释一下。
当你这么说的时候,根据你的说法,左右填充不应该是对称的,你的推理是什么?请解释。 – lenz