Sqoop 导出 1 亿条记录的速度更快



>我有类似于下面的查询

sqoop export 
--connect jdbc:teradata://server/database=BIGDATA 
--username dbuser 
--password dbpw 
-Dsqoop.export.records.per.statement=500
--batch 
--hive-table country
--table COUNTRY
--input-null-non-string '\N'  --input-null-string '\N'  

上述查询适用于 300 万条记录(将数据加载到 TeraData 表需要 1 小时(。对于将数据导出到 Teradata 空表的 1 亿条记录,我认为完成导出可能需要更多时间。 如何高效地编写查询以更快地导出数据而不会使查询失败?

您可能需要考虑将--fetch-size(sqoop每勺数据必须获取的条目数(从默认1000增加到e.g--fetch-size 10000 0r 20000,具体取决于可用内存和环境的带宽。

最新更新