0
我正在使用火花流,我在使用Flume接收器。清洁或过滤数据
流式事件由许多我不需要的字段组成。所以,我想过滤掉。
我只是想检查哪些是更好的地方来过滤数据:
- 应用水槽拦截器来改变数据,然后给它的火花,或流媒体。
- 在Spark Streaming中对DStream应用过滤。
在此先感谢。
我正在使用火花流,我在使用Flume接收器。清洁或过滤数据
流式事件由许多我不需要的字段组成。所以,我想过滤掉。
我只是想检查哪些是更好的地方来过滤数据:
在此先感谢。
这两个选项都可以使用。取决于两件事你可以决定 -
如果你每秒接收到的事件数量超过我所说的火花流量,如果不是这种情况,那就选择flume拦截器。