2017-06-04 51 views
0

在谷歌云数据流1.x中,我大概有机会访问这个关键的管道选项叫做: ​​--workerCacheMB设置在apache beam 0.6中丢失?

我试图设置在我光束0.6的管道,但不能这样做(有人说,没有这样的选项存在)。然后,我浏览了选项源代码,看看是否有任何选项有相似的名称 - 但我仍然无法找到它。

我需要设置它,因为我认为我的worfklow的速度非常慢,是因为3GB的侧面输入,但看起来好像需要20分钟才能阅读。 (我有一个View.asList(),然后我试图在列表上做一个for循环 - 这需要20多分钟,并且仍然在进行;即使在3 GB,这太慢了。)所以,我希望设置workerCacheMb会有所帮助。 (唯一的其他理论是从serializablecoder切换到AvroCoder ....)

回答

1

您是否使用正确的选项类?

下面的代码对我的作品在梁:

DataflowWorkerHarnessOptions options = PipelineOptionsFactory.fromArgs(args).withValidation().create() 
      .cloneAs(DataflowWorkerHarnessOptions.class); 

    options.setWorkerCacheMb(3000);