Sqoop导入性能提升



每当我试图将大量数据从Teradata导入到Hive时。。它在最后两三个测绘器上被击中了两个多小时。。我使用了8个映射器有什么方法可以提高性能吗?由于我在生产中,我使用的映射器数量减少了。。好心帮助

随着映射程序的增加,您还可以通过增加获取大小来提高性能。在Sqoop命令中使用以下语法:

--fetch-size=<n>其中<n>表示Sqoop一次必须获取的条目数。默认值为1000。您可以将其设置为10000或更多。

注意:根据需要读取的数据量增加fetch size参数的值。根据可用内存和带宽设置值。

还请在Sqoop命令中增加堆大小,以避免出现堆异常或内存不足错误等内存问题。在Sqoop命令中使用以下属性增加内存

-Dmapreduce.map.memory.mb=8192 -Dmapreduce.map.java.opts=-Xmx7200m

最新更新