对于正在运行的星火这里工作是为URL的UI细节部分:http://localhost:4040/stages/stage/?id=1&attempt=0了解星火监控UI
的文档在http://spark.apache.org/docs/1.2.0/monitoring.html没有详细说明这些参数。什么是“输入”,“写入时间”列&“随机写入”表示什么?
从截图中可以看出,这4个任务已经运行了1.3分钟,我试图发现是否存在瓶颈,然后发生。
Spark配置为使用4个内核,我想这就是为什么在UI中显示4个任务,每个任务都在单个内核上运行?
确定“随机写入”大小是什么?
在我的控制台输出有很多日志消息:
15/02/11 20时55分33秒INFO rdd.HadoopRDD:输入分流:文件:/ C:/data/example.txt:103306 + 103306 15/02/11 20:55:33 INFO rdd.HadoopRDD:输入分割:file:/ c:/data/example.txt:0 + 103306 15/02/11 20:55:33 INFO rdd.HadoopRDD:输入分割:file:/ c:/data/example.txt:0 + 103306 15/02/11 20:55:33 INFO rdd.HadoopRDD:输入split:file:/ c:/data/example.txt:103306 +103306 15/02/11 20:55:33 INFO rdd.HadoopRDD:输入split:file:/ c:/data/example.txt:103306 + 103306 15/02/11 20:55:33 INFO rdd。 HadoopRDD:输入分割:文件:/ c:/data/example.txt:0 + 103306 15/02/11 20:55:33 INFO rdd.HadoopRDD:输入分割:文件:/ c:/data/example.txt:0 + 103306 15/02/11 20:55:34 INFO rdd.HadoopRDD:输入split:file:/ c:/data/example.txt:103306 + 103306 15/02/11 20:55:34 INFO rdd.HadoopRDD:输入split:file:/ c:/data/example.txt:103306 +103306 .....................
这些是文件被分割成多个较小尺寸的结果,每个“输入”大小为100.9KB (在Spark UI屏幕截图中指定)映射到这些片段之一?