0

我的团队和我有一个基于来自亚马逊的Kinesis服务的流媒体系统,它使用Java独立使用者和KCL向其他团队提供跟踪信息。我们已决定将此系统迁移到Google云端平台。从AWS迁移Kinesis

我们了解到Google平台上的Amazon Kinesis的自然替代是Google Cloud Dataflow服务。是对的吗?

其他问题与数据分区有关,因为我们在Kinesis中使用user-id作为分区键。可以在Google Dataflow上做同样的分区吗?

当然,有没有人做过这样的迁移?从AWS到Google平台的类似迁移?有任何建议吗?

回答

2

是的,云数据流将是正确的选择,如果您想使用主题和订阅,您可能还希望将Cloud Pub/Sub视为您的消息传递中间件。

通过密钥分区数据在Dataflow中完全可行,但您无需为整个管道决定单个分区密钥。相反,当您准备好执行聚合操作时,您只需定义一个GroupByKey转换,并且Dataflow将正确地将数据分割为多个分区,并以并行方式分布式处理它们。每个工作人员将拥有您的密钥的子范围。

您可以在一个序列中有多个GroupByKeys,他们可以使用不同的键来执行分片和聚合。

以前AWS用户迁移到GCP(特别是Dataflow)的最新示例是Brightcove。这里是他们的GCP的录音下一个会话https://www.youtube.com/watch?v=3BrcmUqWNm0&feature=youtu.be&t=29m30s