2014-12-07 126 views
1

我最近遇到了Apache Mesos,并在Mesos上成功部署了我的Storm拓扑。在Apache Marathon上运行Hadoop/Storm任务

我想尝试通过Apache Marathon运行Storm拓扑/ Hadoop作业(在使用Mesos-Storm框架的Apache Mesos上直接运行Storm的问题)。

我找不到任何教程/文章可以列出如何从Apache Marathon启动Hadoop/Spark任务的步骤。

如果任何人都可以提供有关此主题的任何帮助或信息(可能是Marathon发布storm/hadoop作业的Json作业定义),那将会很棒。

非常感谢

+0

Marathon是[Mesosphere](https://mesosphere.com/)不是由Apache维护的项目。您也可以在[项目的Google组]中(https://groups.google.com/forum/#!forum/marathon-framework)尝试您的问题。 – 2014-12-19 15:59:58

回答

1

马拉松旨在为长期运行的服务,所以你可以用它来启动你的JobTracker和星火计划程序,但你最好还是实际启动批处理作业像在Hadoop /星火任务像Chronos这样的批量框架(https://github.com/airbnb/chronos)。 Marathon将在完成/失败时重新启动任务,而Chronos(具有依赖关系的分布式cron)允许您设置预定作业和复杂工作流程。

虽然有点过时了,但下面的教程给出了一个很好的例子。

http://mesosphere.com/docs/tutorials/etl-pipelines-with-chronos-and-hadoop/

1

感谢您的回复,我继续部署在Apache Mesos马拉松风暴 - 泊坞集群。对于服务发现,我使用了HAProxy。这种设置允许服务(nimbus或zookeeper等)在端口的帮助下相互交谈,因此例如为服务添加多个实例并不是问题,因为群集将使用端口找到它们并负载均衡所有服务实例。以下是有Marathon食谱和Docker镜像的GitHub项目:https://github.com/obaidsalikeen/storm-marathon

相关问题