2017-03-15 90 views
0

我们使用谷歌的BigQuery星火连接器导入存储在文件拼花BigQuery内的数据忽略未知值。使用自定义工具,我们生成了BigQuery所需的模式文件,并在我们的导入代码(Scala)中引用它。谷歌的BigQuery星火连接器:如何在追加

然而,我们的数据并没有真正遵循固定和明确的架构,并在某些情况下,附加列可以被添加到个人数据集。这是使用命令行工具bq我们几乎总是用--ignore_unknown_values否则许多进口将失败与BigQuery实验时为什么。

不幸的是,我们无法找到使用BigQuery星火连接器com.google.cloud.bigdataoss:bigquery-connector:0.10.1-hadoop2同等配置选项。它存在吗?

回答

0

这不幸的是目前尚未通过连接管道连接,即使我们现在添加它的正式发布将需要数周才能到处部署。我filed an issue跟踪GitHub的仓库这个功能要求。与此同时,如果您想要构建自己的连接器版本,则可以显式编辑JobConfigurationLoad设置,如果您使用的是较旧的“直接输出格式”,则可以在BigQueryRecordWriter之间编辑;如果您使用的是BigQueryHelper使用较新的“间接输出格式”,并添加一行如下:

loadConfig.setIgnoreUnknownValues(true); 
+0

Thx用于说明。我们将考虑修补连接器。 –