3

如何设计实时交易数据的体系结构以将其分类为欺诈?使用Spark Streaming和机器学习实时预测在线数据

随机森林分类器ML模型是使用历史数据使用Scala和Spark MLLib开发,训练和测试的,并且持续存在。

实时交易数据正在使用来自一个主题的Apache Kafka,Spark Streaming处理并写入另一个主题以便通过分类器ML模型进行预测。

我的担心: 我如何提供并获得预测当前交易数据从Kafka主题收到使用上述ML模式?

预测在线当前单笔交易数据使用已经过训练和测试的ML模型的最佳做法是什么?

欢迎任何设计建议。

+0

IMO,你应该封装得到ML模型中的对象(单),并使用该对象映射即将到来的数据。 – pcejrowski

+0

谢谢@pcejrowski。我为模型创建了一个scala对象,并使用1000条记录进行了训练和测试(70:30)。有用!。现在我错过了向该模型提供实时数据的链接。我应该提供这个作为测试数据agin来模拟例如。 val predictions = model.transform(realTimeData)? –

+0

是的,我认为是这样:) – pcejrowski

回答