0
我使用创建的双字母组的列表:[R文本挖掘转换期限文档矩阵
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
tdm_a.bigram = TermDocumentMatrix(docs_a,
control = list(tokenize = BigramTokenizer))
我试图让每个两字是出现在文档的数量。如果我理解正确项文档矩阵会给。每个二元组在文档中出现多少次。但我只需要 '1'-present在一份文件中并且 '0' - 不存在。
如何将术语文档矩阵转换为数据框或矩阵以获得此类计数?