2012-03-20 126 views
3

我不确定如果R是正确的地方尝试这个或不是,但这是我的情况。我有一个充满字符串的角色矢量。R拼写检查器/标记器

id Words 
1 'The' 
2 'victory' 
3 'wasgreat' 
... ... 

原始数据有一些编码的问题,某些字符串是几个单词concatenizations:

(ie 'My name is' -> 'Mynameis'). 

我需要独自离开正确的话,并获得拼错concatenizations分离到他们的正确子。

我很好奇,如果在R中有任何设置来处理这类问题。我认为python中有几个程序可以处理这个问题,但是我的python技能大大减弱了(接近于不存在的)。但是,我愿意考虑将它作为替代方案。

有什么建议吗?

+2

http://stackoverflow.com/questions/6897214/breaking-a-string-into-individual-wordspython – fraxel 2012-03-20 15:52:16

回答

6

最近一期R Journalarticle by Hornik and Murdoch on R for spell-checking这是递归救援,它们适用于R源自己。

+0

我一直在努力弄清楚如何让aspell在Windows 7 x64上使用自定义字典。尝试** saveRDS()**函数和** aspell_write_personal_dictionary_file()**函数。前者我收到此错误**“单词”UTF-8“无效,字符' - '可能不会出现在单词的中间。”**和警告。随着后来** aspell **找不到我的自定义词典。有关如何攻击这个的任何想法? – Diego 2014-05-24 23:37:52