2015-02-11 71 views
4

对于正在运行的星火这里工作是为URL的UI细节部分:http://localhost:4040/stages/stage/?id=1&attempt=0了解星火监控UI

enter image description here

的文档在http://spark.apache.org/docs/1.2.0/monitoring.html没有详细说明这些参数。什么是“输入”,“写入时间”列&“随机写入”表示什么?

从截图中可以看出,这4个任务已经运行了1.3分钟,我试图发现是否存在瓶颈,然后发生。

Spark配置为使用4个内核,我想这就是为什么在UI中显示4个任务,每个任务都在单个内核上运行?

确定“随机写入”大小是什么?

在我的控制台输出有很多日志消息:

15/02/11 20时55分33秒INFO rdd.HadoopRDD:输入分流:文件:/ C:/data/example.txt:103306 + 103306 15/02/11 20:55:33 INFO rdd.HadoopRDD:输入分割:file:/ c:/data/example.txt:0 + 103306 15/02/11 20:55:33 INFO rdd.HadoopRDD:输入分割:file:/ c:/data/example.txt:0 + 103306 15/02/11 20:55:33 INFO rdd.HadoopRDD:输入split:file:/ c:/data/example.txt:103306 +103306 15/02/11 20:55:33 INFO rdd.HadoopRDD:输入split:file:/ c:/data/example.txt:103306 + 103306 15/02/11 20:55:33 INFO rdd。 HadoopRDD:输入分割:文件:/ c:/data/example.txt:0 + 103306 15/02/11 20:55:33 INFO rdd.HadoopRDD:输入分割:文件:/ c:/data/example.txt:0 + 103306 15/02/11 20:55:34 INFO rdd.HadoopRDD:输入split:file:/ c:/data/example.txt:103306 + 103306 15/02/11 20:55:34 INFO rdd.HadoopRDD:输入split:file:/ c:/data/example.txt:103306 +103306 .....................

这些是文件被分割成多个较小尺寸的结果,每个“输入”大小为100.9KB (在Spark UI屏幕截图中指定)映射到这些片段之一?

回答

0

并非所有东西都印在日志中,特别是没有任何自定义代码(除非您自己打印它)。当某些内容运行时间过长时,您可能想要对其中一个执行程序执行线程转储,并查看堆栈以查看计算进度。

6

输入是您的火花作业摄入的数据大小。例如,它可以是您可能定义的每个地图任务正在使用的数据。

随机写入被定义为写入磁盘的字节以便将来的任务。所以这是数据引发写入磁盘以启用地图输出的传输。例如,如果您正在尝试连接,并且需要将数据混洗到其他节点,那么这就是将要传输到其他节点的数据。

任务不在内核上运行,任务在执行程序上运行。这个执行者反过来使用核心。

也请通过link了解更多相关内容。