2017-01-23 46 views
0

我在Google DataFlow中迈出了一步,我想从外部速率限制的API中提取数据。是否有办法在固定数量的工人之间平均分配数据以遵守比率限制? (需要知道工人的数量,以便按照该数字划分费率限制)。Google DataFlow - 固定的工作人员数

回答

1

这个问题的答案取决于管道是否通过分批或流亚军运行:

批号:不直接控制这除了numWorkers和maxNumWorkers设置为需要的值。这将影响整个流水线,不仅仅是您想要限制速度的阶段

流式传输:UnboundedSource API可让您通过generateInitialSplits()调用精确指定所需的并行输入分割数。然后,每个分割都可以遵守自己的当地费率限制。

+0

在我的管道中,API调用是第一步,也可能是最慢的,所以批处理方法可能不会产生太多问题。我会试试看看它是如何发展的。 –