1

我试图运行一个结构化的流应用程序,将输出文件作为拼块写入Google云存储。我没有看到任何错误。但它不会将文件写入GCS位置。我只能看到spark-metadata文件夹。任何想法如何我可以调试?结构化流创建除火花元数据(Parquet)以外的任何其他文件

windowDuration = "60 minutes"; 
    slideDuration = "10 minutes"; 
    data_2 = complete_data; 
    data_2 = data_2.withColumn("creationDt", functions.to_timestamp(functions.from_unixtime(col(topics+"."+event_timestamp).divide(1000.0)))); 
    data_2 = data_2 
      .withWatermark("creationDt","1 minute") 
      .groupBy(col(topics+"."+keyField),functions.window(col("creationDt"), windowDuration, slideDuration),col(topics+"."+aggregateByField)) 
      .count(); 

    query_2 = data_2 
      .withColumn("startwindow", col("window.start")) 
      .withColumn("endwindow", col("window.end")) 
      .withColumn("endwindow_date", col("window.end").cast(DataTypes.DateType)) 
      .writeStream() 
      .format("parquet") 
      .partitionBy("endwindow_date") 
      .option("path",dataFile_2) 
      .option("truncate", "false") 
      .outputMode("append") 
      .option("checkpointLocation", checkpointFile_2).start(); 

query_2.awaitTermination()

+1

什么是星火的版本? Web UI的SQL选项卡中有什么? 'spark-metadata'文件夹下有什么?源(s)是什么?任何聚合?更多,更多,更多...... –

+0

我使用Google dataproc提供的Spark版本2.2。 Spark元数据文件夹包含许多以220,221等数字命名的文件。所有这些文件都有“v1”作为内容。我没有看到任何有价值的内容。 – Passionate

+0

Web UI呢?什么?无价的内容非常有价值,因为它显示查询正在运行。 –

回答