2016-10-05 83 views

回答

2

对于时间分析,您可以尝试issue 72中描述的说明,但在将工作人员从工作人员身上取下之前,工作人员被拆卸或自动缩小可能会有困难。不幸的是,它不提供内存分析,因此它不会帮助解决内存泄漏问题。

您也可以使用DirectPipelineRunner运行,它将在您的机器上本地执行管道。这将允许您在您的管道中剖析代码,而无需处理Dataflow工作人员。根据管道的规模,您可能需要将输入大小调整为可在一台机器上处理的内容。

试图区分工作人员上运行的代码也是有帮助的 - 例如,单个DoFn中的代码以及管道和数据的结构。例如,内存不足问题可能是由于有一个GroupByKey与单个密钥相关联的值太多并将其读入列表中。

相关问题