加载Bigquery表时出现内部错误



我运行这个命令来加载11个文件到一个Bigquery表:

bq load --project_id=ardent-course-601 --source_format=NEWLINE_DELIMITED_JSON dw_test.rome_defaults_20140819_test gs://sm-uk-hadoop/queries/logsToBq_transformLogs/rome_defaults/20140819/23af7218-617d-42e8-884e-f213a583094a/part* /opt/sm-analytics/projects/logsTobqMR/jsonschema/rome_defaultsSchema.txt

我得到这个错误:

等待bqjob_r46f38146351d545_00000147ef890755_1…(11)当前状态:完成加载操作中的BigQuery错误:错误处理作业' ardend -course-601:bqjob_r46f38146351d545_00000147ef890755_1':遇到太多错误。极限是:0。失败的细节:—File: 5: Unexpected。请重试。

我试了很多次之后,仍然得到相同的错误。

为了调试出错的地方,我将每个文件逐一加载到Bigquery表中。例如:

/usr/local/bin/bq load --project_id=ardent-course-601 --source_format=NEWLINE_DELIMITED_JSON dw_test.rome_defaults_20140819_test gs://sm-uk-hadoop/queries/logsToBq_transformLogs/rome_defaults/20140819/23af7218-617d-42e8-884e-f213a583094a/part-m-00011.gz /opt/sm-analytics/projects/logsTobqMR/jsonschema/rome_defaultsSchema.txt

共有11个文件,每个文件都运行良好。

有人能帮帮我吗?这是Bigquery方面的错误吗?

谢谢。

读取其中一个文件出错:gs://...part-m-00005.gz

查看导入日志,似乎gzip阅读器在解压缩文件时遇到了错误。

看起来该文件实际上可能没有被压缩。BigQuery对列表中第一个文件的头进行采样,以确定它处理的是压缩文件还是未压缩文件,并确定压缩类型。当您一次导入所有文件时,它只对第一个文件进行采样。

当您单独运行文件时,bigquery读取文件的头文件,并确定它实际上没有被压缩(尽管具有后缀'.gz'),因此将其作为普通平面文件导入。

如果你运行一个没有混合压缩和未压缩文件的加载,它应该能成功工作。

如果你认为不是这样,请告诉我,我将进一步调查。

相关内容

最新更新