Apache Beam支持多个亚军后端,包括Apache Spark和Flink。我熟悉Spark/Flink,我正在尝试查看Beam的批处理优点/缺点。Apache Beam对Spark/Flink进行批处理有什么好处?
看着Beam word count example,它感觉它与本机的Spark/Flink等价物非常相似,可能稍微有些冗长的语法。
我目前没有看到选择Beam作为Spark/Flink这种任务的好处。目前为止唯一的观察结果是:
- 临:对不同执行后端的抽象。答案:这个抽象的代价是对Spark/Flink中执行的内容的控制较少。
是否有更好的例子来突出梁模型的其他优点/缺点?有没有关于失控如何影响性能的信息?
请注意,我并不是要求在流式方面存在差异,部分在this question中进行了介绍,并在this article(归因于Spark 1.X)中进行了总结。