如何在Streaming DataFrame上执行多个时间窗口操作？

我在数据帧3列： - [时间：时间戳，COL1：双，COL2：双] 我想执行以下操作：如何在Streaming DataFrame上执行多个时间窗口操作？

dataFrame.withWatermark("time", "10 seconds") 
     .groupBy(window(col("time"),"10 seconds","1 second")) 
     .agg(mean("col1") with window of 10 seconds,max("col") with window of 5 seconds)`

来源

2017-08-30 Naman Agarwal

上不同的密钥组多个聚合（不同窗口=不同分组键）还不支持。你将不得不运行2个不同的查询。

来源

2017-08-31 02:07:34

感谢您的回复。如果我进行2个不同的查询，可以说一个用于平均值，一个用于最大值而不会加入这些查询，因为多个聚合还不支持连接两个流式查询或数据帧。请帮我找到解决此问题的方法。 –

如果包含多个聚合（Avg，Max，..等Spark批处理支持）的动态规则无法应用到Spark结构化流式处理，直到2.2。即使打破查询并加入它们也Spark将它视为多个聚合并引发异常。从逻辑计划

实施例： Aggr1：骨料 [EVENTTIME＃29，类别名称＃15]，[EVENTTIME＃29，类别名称＃15 总和（项目值＃10）AS SUM（项目值）＃64]

Aggr2：骨料 [EVENTTIME＃84，类别名称＃105]，[EVENTTIME＃84，类别名称＃105 平均（项目值＃100）AS AVG（项目值）＃78]

有机apache.spark.sql.AnalysisException：多个流聚合不支持与流式数据帧/数据集配合使用;;

来源

2017-11-19 03:33:43 Shashi

非常感谢您的答案，但我们已经知道这一点。而且我们也使用Kafka Streams实现了这一点。 –

如何在Streaming DataFrame上执行多个时间窗口操作？

回答

相关问题