2017-07-07 107 views
0

我使用创建的双字母组的列表:[R文本挖掘转换期限文档矩阵

BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2)) 
tdm_a.bigram = TermDocumentMatrix(docs_a, 
           control = list(tokenize = BigramTokenizer)) 

我试图让每个两字是出现在文档的数量。如果我理解正确项文档矩阵会给。每个二元组在文档中出现多少次。但我只需要 '1'-present在一份文件中并且 '0' - 不存在。

如何将术语文档矩阵转换为数据框或矩阵以获得此类计数?

回答

0

TDM是来自slam包的simple_triplet_matrix。其中有一些常见的操作线行/ colSums fuctions。

slam::row_sums(tdm_a.bigram>=1)

这应该告诉你有多少文件如何包含在每个两字。