1
我试图运行一个结构化的流应用程序,将输出文件作为拼块写入Google云存储。我没有看到任何错误。但它不会将文件写入GCS位置。我只能看到spark-metadata文件夹。任何想法如何我可以调试?结构化流创建除火花元数据(Parquet)以外的任何其他文件
windowDuration = "60 minutes";
slideDuration = "10 minutes";
data_2 = complete_data;
data_2 = data_2.withColumn("creationDt", functions.to_timestamp(functions.from_unixtime(col(topics+"."+event_timestamp).divide(1000.0))));
data_2 = data_2
.withWatermark("creationDt","1 minute")
.groupBy(col(topics+"."+keyField),functions.window(col("creationDt"), windowDuration, slideDuration),col(topics+"."+aggregateByField))
.count();
query_2 = data_2
.withColumn("startwindow", col("window.start"))
.withColumn("endwindow", col("window.end"))
.withColumn("endwindow_date", col("window.end").cast(DataTypes.DateType))
.writeStream()
.format("parquet")
.partitionBy("endwindow_date")
.option("path",dataFile_2)
.option("truncate", "false")
.outputMode("append")
.option("checkpointLocation", checkpointFile_2).start();
query_2.awaitTermination()
什么是星火的版本? Web UI的SQL选项卡中有什么? 'spark-metadata'文件夹下有什么?源(s)是什么?任何聚合?更多,更多,更多...... –
我使用Google dataproc提供的Spark版本2.2。 Spark元数据文件夹包含许多以220,221等数字命名的文件。所有这些文件都有“v1”作为内容。我没有看到任何有价值的内容。 – Passionate
Web UI呢?什么?无价的内容非常有价值,因为它显示查询正在运行。 –