2015-03-31 70 views
0

我有一个名为train_dtm的DocumentTermMatrix,我想规范所有文档中术语频率的频率计数。我现在面临的问题是所产生的基质也应该是类型DocumentTermMatrix的,因为我想归一化矩阵传递给TopicModels包的另一种方法LDA在R.您如何规范化R中文档术语矩阵的行?

下面是我使用的方法:

docs_dtm <- DocumentTermMatrix(docs) 

现在,我希望上面的documenttermmatrix的行被规范化。我甚至尝试添加的控制参数通过

docs_dtm <- DocumentTermMatrix(docs, control=list(weighting = function(x) weightTf(x, normalize=TRUE))) 

,但上面的调用抛出一个错误说

Error in weightTf(x, normalize=TRUE): unused argument (normalize = TRUE) 

我已经写了使用apply()方法标准化train_dtm的值的方法,但它不返回一个DocumentTermMatrix类型的矩阵。

是否有另一种方法来完成上述任务?

+0

你有一个最小的工作的例子吗? – 2015-03-31 14:40:52

+0

感谢您的回复。上面粘贴了我的代码。 – 2015-03-31 14:44:27

回答

0

你能尝试直接传递权重参数,例如:

docs_dtm <- DocumentTermMatrix(docs, control = list(weighting = weightTf, normalize = TRUE))