对较大的CSV文件加载BigQuery失败

我在Google的BigQuery上加载较大的文件时有问题。问题是当我加载文件少于1000行时，它正在加载而没有任何错误，但是当我加载文件超过10000行时，我正在获得加载错误。

BigQuery error in load operation: Error processing job '......': Too many errors encountered.

任务是从Redshift导出数据并将其加载到BigQuery中。我是这样做的(步骤):

1. Using "Unload" command, I am exporting Redshift table (having more than 160 columns) as a CSV file into S3
2. Transferring data to Google Cloud
3. Creating a table in BigQuery by specifying data source as Google Cloud bucket.

注意:我已经使用了Redshift"Unload"命令中的几乎所有选项，但似乎BigQuery不理解大文件的文件格式。

谁能建议这里的问题是什么?

由于手头的任务是从Redshift导出到BigQuery，您是否尝试过自动化此过程的工具?

https://github.com/iconara/bigshift

From their README:

由Redshift的UNLOAD生成的CSV不能加载到BigQuery no中无论您在任何一端指定了什么选项。红移可以引用所有但是BigQuery不允许使用非字符串字段引用。布尔值和时间戳的格式不兼容，并且他们希望引号字段中的引号以不同的方式转义，以命名有几件事。
这意味着BigShift所做的很多事情是确保数据从Redshift转储的数据与BigQuery兼容。要做到这一点它读取表模式并转换不同的数据类型数据被转储。引号被转义，时间戳被格式化，等等
。

相关内容

最新更新

热门标签：