0

我们使用数据流从一组的PubSub话题读取和写入数据至BigQuery。我们正在为每个主题使用一个DataFlow作业,并将它们写入相关的BigQuery表。是否有可能为此编写一个Dataflow作业?的PubSub - >的BigQuery - 如何处理多个独立的主题?

我看到多个源文件,以一个输出这里:https://cloud.google.com/dataflow/pipelines/design-principles?hl=en#multiple-sources

有什么不让我只是做多的“基本”管道在同一数据流的工作就像在基本流程:https://cloud.google.com/dataflow/pipelines/design-principles?hl=en#a-basic-pipeline

的文档和我对代码的理解意味着这可以完成,但在开始努力之前我想确定一下。

回答

1

我的理解是,没有什么“错误”有这样做,并且是可以做到的,它只是取决于你想要达到的目的,以及设计决策是与你有关的。例如,如果你希望某些话题有更多的吞吐量,分裂他们的一个可能的好处是它可以让你扩展独立来处理特定的主题。

在我来说,我是把多个主题,应用一些变换集和创建PCollectionList,最终写出来至BigQuery。这一切都是在一项工作中完成的,而且我正在以编程方式在运行之前生成转换。

+0

Idrees,感谢信息。我们确实有一个可以生成更多数据。然而,我们在扩展的早期阶段,我宁愿现在凝结,并扩大整个集合一点,并减少复杂性。然后拔出一个开始落后的工作并将它们分开。现在总体积可能需要两台小型机器。它会迅速增长,但其中大部分增长是两个主题,而不是全部五个。我以后可以把它们拉出来。 –