我正在设置Apache Spark
群集以执行实时流式计算,并希望通过跟踪批量大小,批处理时间等各种指标来监控部署的性能。我Spark Streaming
程序写入Scala
Spark Streaming - 获取批次级别的性能统计信息
问题
- 的Spark monitoring REST API说明列出了各个端点可用。但是,我找不到公开批次级别信息的终端。有没有办法让已经运行的应用程序和其他每批次的详细信息,如所有Spark批次列表如下:
- 每批事件数
- 处理时间
- 调度延迟
- 退出状态:即批是否被成功处理
- 如果批处理级API不可用,可以通过向Spark流程程序添加自定义工具来获得批处理级统计信息(例如:大小,处理时间,计划延迟等)。
由于提前,
关于2.这个答案可能有助于http://stackoverflow.com/questions/41980447/in-spark-streaming-is-there-a-way-to-detect-when-a-batch-has-finished/ 41981256#41981256 – ImDarrenG