我不确定如果R是正确的地方尝试这个或不是,但这是我的情况。我有一个充满字符串的角色矢量。R拼写检查器/标记器
id Words
1 'The'
2 'victory'
3 'wasgreat'
... ...
原始数据有一些编码的问题,某些字符串是几个单词concatenizations:
(ie 'My name is' -> 'Mynameis').
我需要独自离开正确的话,并获得拼错concatenizations分离到他们的正确子。
我很好奇,如果在R中有任何设置来处理这类问题。我认为python中有几个程序可以处理这个问题,但是我的python技能大大减弱了(接近于不存在的)。但是,我愿意考虑将它作为替代方案。
有什么建议吗?
http://stackoverflow.com/questions/6897214/breaking-a-string-into-individual-wordspython – fraxel 2012-03-20 15:52:16