1)我们使用结构化流式处理从kafka进行消费,并将处理后的数据集写入s3。 我们也想把处理过的数据写到kafka前进,是否有可能从同一个流式查询中做到这一点? (火花版本2.1.1)Spark结构化流式传输:多个接收器
2)在日志中,我看到了流式查询进度输出,并且我有一个日志采样持续时间JSON,有些人可以提供更多清晰度addBatch和getBatch?
3)触发执行 - 是否需要处理提取的数据并写入接收器?
"durationMs" : {
"addBatch" : 2263426,
"getBatch" : 12,
"getOffset" : 273,
"queryPlanning" : 13,
"triggerExecution" : 2264288,
"walCommit" : 552
},
问候 aravias
感谢您的答复,可以请你澄清如下 - 写从源主题创建一个数据集时都S3与卡夫卡检查点已为每个汇另行规定,因此,它是公平的期望即使使用从该源创建的同一DataSet写入这些2个差异汇,数据将从源主题读取两次? – user2221654
如果您有两个接收器,这意味着您有两个查询。每个查询都有自己的Kafka使用者,并独立地从Kafka获取数据。 – zsxwing