-2
基本上,我想增加已有的数据集,包含一系列句子,并且为此我打算为数据集中的每个句子添加语法/拼写错误。我拥有的数据集完全干净,即没有任何拼写/语法错误。如何做到这一点,牢记不要把太多的错误加到任何特定的句子上,从而阻止其意义/意义的改变。为数据添加拼写/语法错误
基本上,我想增加已有的数据集,包含一系列句子,并且为此我打算为数据集中的每个句子添加语法/拼写错误。我拥有的数据集完全干净,即没有任何拼写/语法错误。如何做到这一点,牢记不要把太多的错误加到任何特定的句子上,从而阻止其意义/意义的改变。为数据添加拼写/语法错误
你看过Edit Distance吗?
编辑距离测量中4个基本操作方面字之间的距离:
x
)[1个单元]x
)[1个单元]x
和y
)[1个单位]x
与y
)[2个单位= 1个单位ertion + 1个删除]例如,“算法”和“对数”由3。
编辑距离分离,引入模型现实世界的数据,你可以考虑使用以下方法有意义的噪音:
考虑编辑距离的原因是你应该确保你的拼写不会偏离正确的拼写超过2-4。