在我的数据流管道中,我将有两个从BigQuery表中读取的PCollections<TableRow>
。我打算将这两个PCollections合并成一个PCollection
并与flatten
合并。在基于时间戳的数据流中过滤有界数据
由于BigQuery仅附加,因此目标是使用新的PCollection
来截断BigQuery中的第二个表。
我已阅读了文档,这是我感到困惑的中间步骤。使用我的新PCollection
计划将使用Comparator DoFn
来查看最大最近更新日期并返回给定行。 我不确定我是否应该使用过滤器转换,或者如果我应该按键进行分组,然后使用过滤器?
所有PCollection<TableRow>
s将包含相同的值:IE:字符串,整数和时间戳。对于关键值对,大部分关于云数据流的文档都只包含简单的字符串。 是否有可能有一个键值对是PCollection<TableRow>
的整行?
该行应类似于:
customerID, customerName, lastUpdateDate
0001, customerOne, 2016-06-01 00:00:00
0001, customerOne, 2016-06-11 00:00:00
在上面的例子中,我将要过滤的PCollection只是第二行返回,将被写入的BigQuery一个PCollection。 另外,是否可以在第三个PCollection上应用这些Pardo
而不创建第四个?