了解星火监控UI

对于正在运行的星火这里工作是为URL的UI细节部分：http://localhost:4040/stages/stage/?id=1&attempt=0 了解星火监控UI

enter image description here

的文档在http://spark.apache.org/docs/1.2.0/monitoring.html没有详细说明这些参数。什么是“输入”，“写入时间”列&“随机写入”表示什么？

从截图中可以看出，这4个任务已经运行了1.3分钟，我试图发现是否存在瓶颈，然后发生。

Spark配置为使用4个内核，我想这就是为什么在UI中显示4个任务，每个任务都在单个内核上运行？

确定“随机写入”大小是什么？

在我的控制台输出有很多日志消息：

15/02/11 20时55分33秒INFO rdd.HadoopRDD：输入分流：文件：/ C：/data/example.txt：103306 + 103306 15/02/11 20:55:33 INFO rdd.HadoopRDD：输入分割：file：/ c：/data/example.txt：0 + 103306 15/02/11 20:55:33 INFO rdd.HadoopRDD：输入分割：file：/ c：/data/example.txt：0 + 103306 15/02/11 20:55:33 INFO rdd.HadoopRDD：输入split：file：/ c：/data/example.txt：103306 +103306 15/02/11 20:55:33 INFO rdd.HadoopRDD：输入split：file：/ c：/data/example.txt：103306 + 103306 15/02/11 20:55:33 INFO rdd。 HadoopRDD：输入分割：文件：/ c：/data/example.txt：0 + 103306 15/02/11 20:55:33 INFO rdd.HadoopRDD：输入分割：文件：/ c：/data/example.txt：0 + 103306 15/02/11 20:55:34 INFO rdd.HadoopRDD：输入split：file：/ c：/data/example.txt：103306 + 103306 15/02/11 20:55:34 INFO rdd.HadoopRDD：输入split：file：/ c：/data/example.txt：103306 +103306 .....................

这些是文件被分割成多个较小尺寸的结果，每个“输入”大小为100.9KB （在Spark UI屏幕截图中指定）映射到这些片段之一？

来源

2015-02-11 blue-sky

并非所有东西都印在日志中，特别是没有任何自定义代码（除非您自己打印它）。当某些内容运行时间过长时，您可能想要对其中一个执行程序执行线程转储，并查看堆栈以查看计算进度。

来源

2015-02-11 23:34:31 Sietse

输入是您的火花作业摄入的数据大小。例如，它可以是您可能定义的每个地图任务正在使用的数据。

随机写入被定义为写入磁盘的字节以便将来的任务。所以这是数据引发写入磁盘以启用地图输出的传输。例如，如果您正在尝试连接，并且需要将数据混洗到其他节点，那么这就是将要传输到其他节点的数据。

任务不在内核上运行，任务在执行程序上运行。这个执行者反过来使用核心。

也请通过link了解更多相关内容。

来源

2015-02-12 12:19:34

了解星火监控UI

回答

相关问题