2017-09-24 54 views
0

我正在玩使用apache toree scala noteabook的结构化流式传输,并且希望创建一个总结(按组计数)我的数据并将总结输出到实木复合地板文件的数据框。 但我看到的都是空文件。这里是我的笔记本的相关代码:使用结构化流式输出聚合数据到实木复合地板使用结构化流式输出

val streamingCountsDF = 
     streamingInputDF 
.withWatermark("timestamp", "1 week") 
.dropDuplicates("timestamp","request") 
.groupBy($"request",window($"timestamp", "1 hour")) 
.count() 
    streamingCountsDF.isStreaming 


    val query = streamingCountsDF 
.writeStream 
.format("parquet")   
.trigger(Trigger.ProcessingTime(10.second)) 
.option("path",parquetOutputPath) 
.option("checkpointLocation","s3://mypath")  
.outputMode("append")  
.start() 

任何想法我失踪?

回答

0

您跳过了路径。

streamingCountsDF.writeStream 
       .trigger(Trigger.ProcessingTime(triggerTime)) 
       .format("parquet") 
       .option("checkpointLocation", s"$s3BaseUrl/check") 
       .option("path", s3BaseUrl) 
       .start() 
0

其实我有路径。因为它变成我们看到它确实有效,只花了很长时间写出文件。所以我会关闭这个问题

相关问题