使用Spark Streaming和机器学习实时预测在线数据

如何设计实时交易数据的体系结构以将其分类为欺诈？使用Spark Streaming和机器学习实时预测在线数据

随机森林分类器ML模型是使用历史数据使用Scala和Spark MLLib开发，训练和测试的，并且持续存在。

实时交易数据正在使用来自一个主题的Apache Kafka，Spark Streaming处理并写入另一个主题以便通过分类器ML模型进行预测。

我的担心：我如何提供并获得预测当前交易数据从Kafka主题收到使用上述ML模式？

预测在线当前单笔交易数据使用已经过训练和测试的ML模型的最佳做法是什么？

欢迎任何设计建议。

来源

2017-07-30 Gopinathan K M

IMO，你应该封装得到ML模型中的对象（单），并使用该对象映射即将到来的数据。 – pcejrowski

谢谢@pcejrowski。我为模型创建了一个scala对象，并使用1000条记录进行了训练和测试（70:30）。有用！。现在我错过了向该模型提供实时数据的链接。我应该提供这个作为测试数据agin来模拟例如。 val predictions = model.transform（realTimeData）？ –

是的，我认为是这样:) – pcejrowski

使用Spark Streaming和机器学习实时预测在线数据

回答

相关问题