2015-05-09 173 views
0

我正在研究一组数据集,该数据集有一堆原始文本,我将其用于向量化并在我的矩阵中用于随机森林回归。我的问题是,我应该把每个单词当作一个.factor还是一个.numeric,如果它是一个稀疏矩阵?哪一个加快了计算时间?R文本挖掘和随机森林

回答

0

我的理解是R矩阵将因素强制为字符,所以你最好使用数字。

我对RandomForest并不熟悉 - 我对它的功能有一个总体的了解,但我不确定它的R实现的内涵。如果你需要给它一个设计矩阵(例如,当你手工实现它们时ANOVA或GLM是如何工作的),你可以尝试使用model.matrix函数。