如何在Spark中“重新训练”模型（如果可能）

我试图弄清楚是否有可能在新的和未知数据可用于训练时“重新训练”模型。我的想法是这样的：使用某些数据集进行初始培训并生成模型。然后可保存该模型以供将来使用（使用write().save()命令）。每次运行程序时，我都会调用该模型，而不是通过对相同或相似数据进行训练来创建新模型（我知道我也可以使用load()命令加载模型）。但是，我将与之合作的数据在某些时候会发生显着变化，以至于我的模型所做的预测不会再正确。但是，这并不意味着它是错的。这只意味着它需要一些调整，而这正是“再培训”想到的地方。我想采用我的旧模型，并用新数据重新训练，然后再保存。 Apache Spark中可以这样做吗？或者，我是否需要仅基于新数据创建新模型？仅供参考，我正在谈论分类模型，更具体地说是关于随机森林或GBT。如何在Spark中“重新训练”模型（如果可能）

感谢

来源

2017-08-01 Guillermo Herrera