2017-06-12 43 views
-2

基本上,我想增加已有的数据集,包含一系列句子,并且为此我打算为数据集中的每个句子添加语法/拼写错误。我拥有的数据集完全干净,即没有任何拼写/语法错误。如何做到这一点,牢记不要把太多的错误加到任何特定的句子上,从而阻止其意义/意义的改变。为数据添加拼写/语法错误

回答

0

你看过Edit Distance吗?

编辑距离测量中4个基本操作方面字之间的距离:

  1. 插入(添加字符x)[1个单元]
  2. 删除(删除x)[1个单元]
  3. 换位(交换两个相邻字符xy)[1个单位]
  4. 替换(替换xy)[2个单位= 1个单位ertion + 1个删除]

例如,“算法”和“对数”由3。

编辑距离分离,引入模型现实世界的数据,你可以考虑使用以下方法有意义的噪音:

  1. 在每个字串,采取随机
  2. 1-2词语对于每个随机字,选择4个操作中的一个,并随机它适用于单词的任何部分。你也可以对同一个单词应用2个操作。 在现实世界中,您不会发现比编辑3-4的距离更剧烈的错误。

考虑编辑距离的原因是你应该确保你的拼写不会偏离正确的拼写超过2-4。