结构化流创建除火花元数据（Parquet）以外的任何其他文件

我试图运行一个结构化的流应用程序，将输出文件作为拼块写入Google云存储。我没有看到任何错误。但它不会将文件写入GCS位置。我只能看到spark-metadata文件夹。任何想法如何我可以调试？结构化流创建除火花元数据（Parquet）以外的任何其他文件

windowDuration = "60 minutes"; 
    slideDuration = "10 minutes"; 
    data_2 = complete_data; 
    data_2 = data_2.withColumn("creationDt", functions.to_timestamp(functions.from_unixtime(col(topics+"."+event_timestamp).divide(1000.0)))); 
    data_2 = data_2 
      .withWatermark("creationDt","1 minute") 
      .groupBy(col(topics+"."+keyField),functions.window(col("creationDt"), windowDuration, slideDuration),col(topics+"."+aggregateByField)) 
      .count(); 

    query_2 = data_2 
      .withColumn("startwindow", col("window.start")) 
      .withColumn("endwindow", col("window.end")) 
      .withColumn("endwindow_date", col("window.end").cast(DataTypes.DateType)) 
      .writeStream() 
      .format("parquet") 
      .partitionBy("endwindow_date") 
      .option("path",dataFile_2) 
      .option("truncate", "false") 
      .outputMode("append") 
      .option("checkpointLocation", checkpointFile_2).start();

query_2.awaitTermination（）

来源

2017-09-20 Passionate

什么是星火的版本？ Web UI的SQL选项卡中有什么？ 'spark-metadata'文件夹下有什么？源（s）是什么？任何聚合？更多，更多，更多...... –

我使用Google dataproc提供的Spark版本2.2。 Spark元数据文件夹包含许多以220,221等数字命名的文件。所有这些文件都有“v1”作为内容。我没有看到任何有价值的内容。 – Passionate

Web UI呢？什么？无价的内容非常有价值，因为它显示查询正在运行。 –

我相信这个问题是.outputMode("append")线。 GCS不是文件系统，不支持追加模式。

我猜测，这条线炸毁和异常是刚刚吞并了地方： https://github.com/GoogleCloudPlatform/bigdata-interop/blob/master/gcs/src/main/java/com/google/cloud/hadoop/fs/gcs/GoogleHadoopFileSystemBase.java#L1175

来源

2017-09-21 16:51:26 tix

结构化流创建除火花元数据（Parquet）以外的任何其他文件

回答

相关问题