Google BigQuery Spark Connector:如何忽略附录上未知值

我们使用Google BigQuery Spark Connector将存储在Parquet文件中的数据导入到BigQuery中。使用自定义工具，我们生成了BigQuery所需的架构文件，并在我们的导入代码（Scala）中引用。

但是，我们的数据并没有真正遵守固定且定义明确的架构，在某些情况下，可以将其他列添加到单个数据集中。这就是为什么在使用命令行工具bq尝试BigQuery时，我们几乎总是使用--ignore_unknown_values，因为否则许多导入会失败。

不幸的是，我们在BigQuery Spark Connector com.google.cloud.bigdataoss:bigquery-connector:0.10.1-hadoop2中找不到等效配置选项。它存在吗？

不幸的是，目前尚未通过连接器进行管道，即使我们现在添加它，正式版本也需要数周才能在任何地方部署。我提出了一个问题，以在GitHub存储库中跟踪此功能请求。

与此同时，如果要构建自己的连接器版本，则可以在BigQueryRecordWriter中明确编辑JobConfigurationload设置，如果您使用较旧的"直接输出格式"，或者如果使用BigQueryHelper，则可以较新的"间接输出格式"，并添加一个类似的行：

loadConfig.setIgnoreUnknownValues(true);

相关内容