2017-04-16 102 views
2

我明白了,Airflow中的许多操作员在将数据上载到目标系统之前将数据存储在本地。这意味着工作人员节点正在做大量的工作,以防万一数据量巨大。Apache AirFlow如何实现可扩展性?

的Airbnb(公司谁开源气流)说,早在2015年,他们曾在5000个服务工作气流集群只有6个节点。

我在这里错过了什么吗?

请帮助理解。

回答

2

Apache的气流的主要目的是任务调度和监视。它不是作为通用数据处理引擎设计的。相比于Apache Spark或Apache Hive,可以认为它是Oozie的替代品。

尽管气流可以扩展它的工人(与Mesos,RabbitMQ的/芹菜)繁重仍然由分析系统执行的。例如,Airflow可以管理Spark任务和德鲁伊查询,处理更改等。