您如何规范化R中文档术语矩阵的行？

我有一个名为train_dtm的DocumentTermMatrix，我想规范所有文档中术语频率的频率计数。我现在面临的问题是所产生的基质也应该是类型DocumentTermMatrix的，因为我想归一化矩阵传递给TopicModels包的另一种方法LDA在R.您如何规范化R中文档术语矩阵的行？

下面是我使用的方法：

docs_dtm <- DocumentTermMatrix(docs)

现在，我希望上面的documenttermmatrix的行被规范化。我甚至尝试添加的控制参数通过

docs_dtm <- DocumentTermMatrix(docs, control=list(weighting = function(x) weightTf(x, normalize=TRUE)))

，但上面的调用抛出一个错误说

Error in weightTf(x, normalize=TRUE): unused argument (normalize = TRUE)

我已经写了使用apply（）方法标准化train_dtm的值的方法，但它不返回一个DocumentTermMatrix类型的矩阵。

是否有另一种方法来完成上述任务？

2015-03-31 London guy

你有一个最小的工作的例子吗？ – 2015-03-31 14:40:52

感谢您的回复。上面粘贴了我的代码。 – 2015-03-31 14:44:27

你能尝试直接传递权重参数，例如：

docs_dtm <- DocumentTermMatrix(docs, control = list(weighting = weightTf, normalize = TRUE))

2015-06-12 13:41:32

回答