2017-05-31 91 views
1

我们的数据流作业读取GS文件夹两个文本文件,将它们转换,并将其写入BigQuery资料集之前,将它们合并与合并步骤之前失败:无法重命名输出文件

Unable to rename output files from gs://xxx to gs://xxxx

看起来临时文件在合并开始之前就被删除了?

+0

你能分享你的管道代码吗? –

+0

您使用的是什么版本的Dataflow SDK?你正在写的GCS桶是否有任何类型的TTL?有没有可用的职位ID,我们可以查看更多详细信息? –

+0

管道: 'collection1 = load_all_from_tsv(PATH1) collection2 = load_all_from_tsv(PATH2) ((collection1,collection2) | 'Flaten既' >> beam.Flatten() | '格式行' >> beam.FlatMap( ourFormattingFunction) | '写的BigQuery' >> beam.io.Write( beam.io.BigQuerySink( 'project.outputdataset', 模式=架构, create_disposition = beam.io.BigQueryDisposition.CREATE_IF_NEEDED, write_disposition = beam.io.BigQueryDisposition.WRITE_APPEND )) )' –

回答

1

发现问题! 两个FlatMap函数之一由于数据格式不正确而失败。提示任何其他人都会遇到类似问题:首先使用DirectRunner调试所有map/pardo/etc函数!