我试图用R中的knn(使用几个包(knnflex
,class
))来根据8个变量预测违约概率。该数据集大约有8行的10万行,但我的机器似乎在10K行的样本上有困难。对数据集> 50行(即iris
)做任何建议?R knn大型数据集
编辑:
澄清有几个问题。
1)在class
和knnflex
包的例子是有点不清楚,我很好奇,如果有类似的地方,你给它的变量,你要预测你要使用的随机森林包和数据的一些实施训练模式:
RF <- randomForest(x, y, ntree, type,...)
然后转身和使用模型使用测试数据集的预测数据:
pred <- predict(RF, testData)
2)我真的不明白为什么要knn
赖宁g AND建立模型的测试数据。从我所知道的情况来看,该软件包创建了一个矩阵〜nrows(trainingData)^2
,这似乎也是预测数据大小的上限。我使用5000行创建了一个模型(高于#我有内存分配错误),无法预测测试集> 5000行。因此,我需要两种:
一)找到一种方法,在一次训练中使用> 5000行设置
或
B)找到一种方法,使用该模型对全行10万。
只是想知道,你最终设法推进这个 - 在训练集大小方面? – ktdrv
@ktdrv:我相信我设法完成了完整的数据集。我会推荐'caret'包中的knn实现,原因有两个。首先它允许调整'k'参数。其次,它是我使用的最快的knn模型,它允许并行化(尽管我没有看到knn的巨大吸引力)。 下面是一组很好的解释和例子,以启动和运行:http://www.jstatsoft.org/v28/i05/paper – screechOwl