Google BigQuery Spark Connector:如何忽略附录上未知值



我们使用Google BigQuery Spark Connector将存储在Parquet文件中的数据导入到BigQuery中。使用自定义工具,我们生成了BigQuery所需的架构文件,并在我们的导入代码(Scala)中引用。

但是,我们的数据并没有真正遵守固定且定义明确的架构,在某些情况下,可以将其他列添加到单个数据集中。这就是为什么在使用命令行工具bq尝试BigQuery时,我们几乎总是使用--ignore_unknown_values,因为否则许多导入会失败。

不幸的是,我们在BigQuery Spark Connector com.google.cloud.bigdataoss:bigquery-connector:0.10.1-hadoop2中找不到等效配置选项。它存在吗?

不幸的是,目前尚未通过连接器进行管道,即使我们现在添加它,正式版本也需要数周才能在任何地方部署。我提出了一个问题,以在GitHub存储库中跟踪此功能请求。

与此同时,如果要构建自己的连接器版本,则可以在BigQueryRecordWriter中明确编辑JobConfigurationload设置,如果您使用较旧的"直接输出格式",或者如果使用BigQueryHelper,则可以较新的"间接输出格式",并添加一个类似的行:

loadConfig.setIgnoreUnknownValues(true);

最新更新