2012-12-04 32 views
1

我想知道是否有任何Hadoop计数器和作业可视化库/项目。例如,显示每个作业类型和开始和结束时间的时间显示,随时间绘制。另一个例子是随着时间的推移绘制一个给定的计数器。我认为这可以用于运营洞察力,监控和警报。Hadoop计数器可视化

回答

2

注:由于这是我的第一篇,所以我不能发表超过两个URL。请看看this GitHub gist for my post with all links in Markdown format。下面所有的斜体都是超链接。抱歉给你带来不便。 - 迈克尔

我现在想到的唯一的开源可视化项目是Twitter Ambrose。从我在这个回复中提到的各种工具中,你可能会首先看看安布罗斯。它支持在其网站UI以下功能:

[安布罗斯网络用户界面的特征]

  • 所有相关的作业的表图,其当前状态
  • 和弦和图形图来沿可视化的工作依赖关系和当前状态
  • 的总体脚本进度条

除此之外,我的个人经验来自商业供应商的产品。为了他们的名字,但二:

  • Cloudera的经理为CDH4分布
  • MAPR的Dashboard为M3和M5分布

两种产品都带有一个API,允许你扩展它们并将它们与您自己的Ops工具集合在一起。 Cloudera Manager需要一个评估许可证,而MapR的仪表板可以在免费的M3发行版中使用,如果你想旋转它的话。像往常一样,每个人都有优点和缺点。

这就是说,你还可以配置标准的Hadoop来发送其指标的监控工具,如神经节(见现场演示在UC伯克利电网)。基本上,您只需将度量值转储到Ganglia中,后者将处理各种度量标准的可视化/绘图。 描述了如何将Ganglia配置为小型Hadoop集群。如果您正在运行Hadoop 2.x,请看什么是Hadoop Metrics2以了解下一代Hadoop中的度量系统的工作方式。

尽管与直接问题有点不相关,但您也可以通过调用Hadoop的Java API来编写自定义监视器。通常可以直接使用与其他Ops基础结构工具兼容的方式编写这些自定义显示器,例如Nagios。例如,我们的一个自定义监视器连接到JobTracker,以便检测运行时间超过24小时的任何MapReduce作业(这在99%的故事中表明作业以某种方式破裂)。根据您将指标转储到您的工具,您将获得免费的可视化图形(参见上面的Ganglia示例)。

希望这会有所帮助, Michael