2017-08-01 125 views
0

我试图弄清楚是否有可能在新的和未知数据可用于训练时“重新训练”模型。我的想法是这样的: 使用某些数据集进行初始培训并生成模型。然后可保存该模型以供将来使用(使用write().save()命令)。每次运行程序时,我都会调用该模型,而不是通过对相同或相似数据进行训练来创建新模型(我知道我也可以使用load()命令加载模型)。但是,我将与之合作的数据在某些时候会发生显着变化,以至于我的模型所做的预测不会再正确。但是,这并不意味着它是错的。这只意味着它需要一些调整,而这正是“再培训”想到的地方。我想采用我的旧模型,并用新数据重新训练,然后再保存。 Apache Spark中可以这样做吗?或者,我是否需要仅基于新数据创建新模型?仅供参考,我正在谈论分类模型,更具体地说是关于随机森林或GBT。如何在Spark中“重新训练”模型(如果可能)

感谢

回答

0

您可以将新老数据和训练使用所有可用数据的新模式。

没有

有增量训练树模型的选项。您不能只从旧模型开始并添加新数据。

也许

您可以创建某种类型的集成模型的。仅在新数据上训练新模型,然后使用旧模型和新模型进行预测,并对两者进行加权概率。它不是内置的,所以你会自己实现它。