我每5分钟从ElasticSearch读取数据到Spark。所以每5分钟会有一个RDD。如何从持续的RDD构建DStream?
我希望能够基于这些RDD构建一个DStream,以便我可以在最近1天,最近1小时,最近5分钟等内获取数据报告。
为了构建DStream,我一直在考虑创建自己的接收器,但spark的官方文档只能使用scala或java来提供信息。我使用python。
那么你知道有什么办法吗?我知道我们可以。毕竟DStream是一系列RDD,当然我们应该从持续的RDD创建DStream。我只是不知道如何。请给出一些建议
谢谢@Mateusz Dymczyk。 queueStream将不起作用,因为在创建DStream之后。任何添加到队列中的新rdd都不会计入 –
@KramerLi啊你是对的,我想知道是否有某种方法可以改变这种行为... –