0
removeSparseTerms中的这个稀疏参数有什么作用?删除矩阵中的稀疏
This Works。
TrigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 3, max = 3))
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
tdm <- DocumentTermMatrix(corpus, control = list(tokenize = TrigramTokenizer))
x <- as.matrix(removeSparseTerms(tdm, 0.99991))
然而,当我改变
x <- as.matrix(removeSparseTerms(tdm, 0.10))
这是行不通的。矩阵返回一个稀疏矩阵。我的理解不正确吗? 0.10参数确定术语必须出现在文集中至少10%的文档中?
这是由于我矩阵的稀疏吗?
运行语料库返回这个结果
corpus
<<DocumentTermMatrix (documents: 42695, terms: 326740)>>
Non-/sparse entries: 393990/13949770310
Sparsity : 100%
Maximal term length: 97
Weighting : term frequency (tf)