R文本挖掘和随机森林

我正在研究一组数据集，该数据集有一堆原始文本，我将其用于向量化并在我的矩阵中用于随机森林回归。我的问题是，我应该把每个单词当作一个.factor还是一个.numeric，如果它是一个稀疏矩阵？哪一个加快了计算时间？R文本挖掘和随机森林

我的理解是R矩阵将因素强制为字符，所以你最好使用数字。

我对RandomForest并不熟悉 - 我对它的功能有一个总体的了解，但我不确定它的R实现的内涵。如果你需要给它一个设计矩阵（例如，当你手工实现它们时ANOVA或GLM是如何工作的），你可以尝试使用model.matrix函数。

2015-05-09 16:19:52

回答