在Apache Oozie,Spotify/Luigi和airbnb/airflow之间,他们每个人有什么优点和缺点?针对构建基于hadoop的数据管道的调度工具的建议
我过去曾经使用oozie和airflow来构建使用PIG和Hive的数据摄入管道。目前,我正在构建一个查看日志并提取有用事件并将其置于红移的管道。
我发现气流更容易使用/测试/设置。它有一个更酷的用户界面,并允许用户从用户界面本身执行操作,这与Oozie不同。欢迎任何有关Luigi或其他有关稳定性和问题的见解。
在Apache Oozie,Spotify/Luigi和airbnb/airflow之间,他们每个人有什么优点和缺点?针对构建基于hadoop的数据管道的调度工具的建议
我过去曾经使用oozie和airflow来构建使用PIG和Hive的数据摄入管道。目前,我正在构建一个查看日志并提取有用事件并将其置于红移的管道。
我发现气流更容易使用/测试/设置。它有一个更酷的用户界面,并允许用户从用户界面本身执行操作,这与Oozie不同。欢迎任何有关Luigi或其他有关稳定性和问题的见解。
恕我直言,Azkaban强制执行简单性(不能使用不存在的功能),其他人则巧妙地鼓励复杂性。
更简单的管道比复杂的管道更好:创建更容易,更容易理解(特别是当你没有创建时),更容易调试/修复。
当需要复杂的操作时,您希望以完全成功或完全失败的方式封装它们。
如果你可以使它幂等(再次运行它会产生相同的结果),那就更好了。
这篇文章会给你一个最初的想法有关不同可能的工作流程
http://bytepawn.com/luigi-airflow-pinball.html - Oozie的缺失,但它是一个不错的比较反正。 –