与TM包,我能够做到这一点是这样的:是否可以提供RTextTools包的自定义停用词表?
c0 <- Corpus(VectorSource(text))
c0 <- tm_map(c0, removeWords, c(stopwords("english"),mystopwords))
mystopwords
是附加的禁用词我想删除的载体。
但我找不到使用RTextTools软件包的等效方法。例如:
dtm <- create_matrix(text,language="english",
removePunctuation=T,
stripWhitespace=T,
toLower=T,
removeStopwords=T, #no clear way to specify a custom list here!
stemWords=T)
是否可以这样做?我真的很喜欢RTextTools
界面,并且很遗憾必须回到tm
。
谢谢!这工作完美。虽然,由于RTextTools包丢失了一些功能(或者失去了一个简单的实现),你会推荐使用它吗? (坚持tm包) – user2175594
我认为这取决于你的矩阵和停止词向量。一般来说,我会做解决方案三,但如果矩阵和停止词矢量太大,你可能会遇到内存问题。比我会做解决方案2,添加线,命名它。 'create_matrix2',但是它放在一个文件上并将其来源。你可以像使用旧功能一样使用'create_matrix2',但使用新功能。 – holzben