因此,我的雇主通过卡夫卡的Avro消息。我们希望将所有邮件归档到Amazon S3。理想情况下,他们将一天被存储在S3样目录,并使用通路结构是这样的:Avro Records - > Kafka - > Kafka Connect Sink - > Amazon S3 Storage。幂等?
S3://my-bucket/data/day=2016-03-04/data.avro
如何做到这一点有没有参考或最佳实践?
我的一个问题是幂等性:如何提供写幂等性,其中记录可能会多次发送到我的接收器作家,但只能存储在S3上一次。
我是否正确,我需要幂等性?如果我实现了一个简单的追加(非幂等),Kafka Connect可能会发送两次相同的记录,并且它们可能会冗余存储?