2016-02-13 75 views
0

我正在使用火花流,我在使用Flume接收器。清洁或过滤数据

流式事件由许多我不需要的字段组成。所以,我想过滤掉。

我只是想检查哪些是更好的地方来过滤数据:

  • 应用水槽拦截器来改变数据,然后给它的火花,或流媒体。
  • 在Spark Streaming中对DStream应用过滤。

在此先感谢。

回答

1

这两个选项都可以使用。取决于两件事你可以决定 -

  1. Flume拦截器是更多的解耦方式。
  2. Spark流将会更快。

如果你每秒接收到的事件数量超过我所说的火花流量,如果不是这种情况,那就选择flume拦截器。