对较大的CSV文件加载BigQuery失败



我在Google的BigQuery上加载较大的文件时有问题。问题是当我加载文件少于1000行时,它正在加载而没有任何错误,但是当我加载文件超过10000行时,我正在获得加载错误。

BigQuery error in load operation: Error processing job '......': Too many errors encountered.

任务是从Redshift导出数据并将其加载到BigQuery中。我是这样做的(步骤):

1. Using "Unload" command, I am exporting Redshift table (having more than 160 columns) as a CSV file into S3
2. Transferring data to Google Cloud
3. Creating a table in BigQuery by specifying data source as Google Cloud bucket.

注意:我已经使用了Redshift"Unload"命令中的几乎所有选项,但似乎BigQuery不理解大文件的文件格式。

谁能建议这里的问题是什么?

由于手头的任务是从Redshift导出到BigQuery,您是否尝试过自动化此过程的工具?

https://github.com/iconara/bigshift

From their README:

由Redshift的UNLOAD生成的CSV不能加载到BigQuery no中无论您在任何一端指定了什么选项。红移可以引用所有但是BigQuery不允许使用非字符串字段引用。布尔值和时间戳的格式不兼容,并且他们希望引号字段中的引号以不同的方式转义,以命名有几件事。

这意味着BigShift所做的很多事情是确保数据从Redshift转储的数据与BigQuery兼容。要做到这一点它读取表模式并转换不同的数据类型数据被转储。引号被转义,时间戳被格式化,等等

最新更新