0
在检查用(Twitter的数据)tm
库TermDocumentMatrix
创建一个术语文档矩阵,我发现很多话是什么样的:如何从四重字母的单词清理语料库?
aaa 0
aaaa 0
aaaaaand 0
aaaagggghhhh 0
aaas 0
aaawww 1
我removeWords, stopwords
预处理,但我也想去掉单词重复四次或更多次。我如何在tm_map
中做到这一点?
只是一个想法,但不是删除的话,你可能只是删除多余的字母 - 这样你就不会丢弃数据。任何重复的更多3次以上可以删除多余的字母。棘手的部分是决定你是否应该保持2或1,但并不是每个英文字母都有一个双字母。你知道吗? – justanotherbrain
嗯,当然,但我认为目前我只想删除“奇怪”的单词,看看模型的结局。我怎样才能做到这一点? – TMOTTM
在r,我真的不能帮助。我花了我所有的时间与C/C++和Python。尽管我不认为这应该太难。您可以扫描文档中的三联字母并删除单词。有人可以纠正我,但我不认为你能比线性时间复杂性好得多。 – justanotherbrain