小贝子编程

Sqoop 导出 1 亿条记录的速度更快

本文关键字：记录速度亿条导出 Sqoop hadoop export teradata sqoop
更新时间 : 2023-09-17
英文 : Sqoop export for 100 million records faster

>我有类似于下面的查询

sqoop export 
--connect jdbc:teradata://server/database=BIGDATA 
--username dbuser 
--password dbpw 
-Dsqoop.export.records.per.statement=500
--batch 
--hive-table country
--table COUNTRY
--input-null-non-string '\N'  --input-null-string '\N'

上述查询适用于 300 万条记录(将数据加载到 TeraData 表需要 1 小时(。对于将数据导出到 Teradata 空表的 1 亿条记录，我认为完成导出可能需要更多时间。如何高效地编写查询以更快地导出数据而不会使查询失败？

您可能需要考虑将--fetch-size(sqoop每勺数据必须获取的条目数(从默认1000增加到e.g--fetch-size 10000 0r 20000，具体取决于可用内存和环境的带宽。

最新更新

最有效的方法来限制SQL查询使用count(*)的对象在表中?
Flexsearch导出和导入文档索引问题
我如何从一个任务数据框不计算整个数据框拉前五个值?
查找哈希的最小值和最大值
使用group by函数根据现有列获取二进制列的SQL查询
将Laravel关系对象上的字符串转换为整数
如何用新的hhk测试签名迷你过滤器驱动程序
JS选择插入后的元素
根据唯一值合并数据帧
在Python 3.x中写入压缩CSV文件时出错
如何在其他2列数据的条件下生成一列数据的折线图
Ruby:我有一个hash，键=str.split(//)，值=这些字符的索引.如果存在超过1个字符，如何将多个索引添加
如何检查一个字符串是否包含在Swift字符串数组中的子字符串?
动态地在MAUI网格中创建数据绑定
ModelMapper 2.4.4和Groovy 3.0兼容性问题
Groupby and Sum函数，显示未分组项的索引和和
如何加快django加载时间?
如何在mysql的游标循环中只发生一次插入
如何在.htaccess中替换空白(%20)到分数(_)?(基于php)
显示处于不工作状态的集合中的随机项
Typescript:用一个初始值开始一个reduce语句?
ThinkingSphinx 实时索引和 Rspec 验收测试 w Chrome 无头
无法在Azure DevOps发布管道中提取.net单文件应用程序
Javascript-优化算法(复杂数据结构)
BigTable ReadModifyWriteRow支持映射功能
如何在没有全局URL和变量的情况下加载angular中的外部脚本
循环在第一次迭代后停止
如何在.net核心后台服务ExecuteAsync中只启动一次进程
R/Shiny App将Plot写入RStudio中的Plot视图，而不是Shiny UI
如何正确缓存webaudio对象?

Sqoop 导出 1 亿条记录的速度更快

相关内容

最新更新

热门标签：