将数据从Hadoop移动到Teradata



我被要求从Hadoop (Impala或Hive)中提取数据并将其插入Teradata。我试图将数据拉为csv并使用python脚本将其插入Teradata。然而,每次我试图下载csv,它失败了(它说网络错误,所以可能是我的互联网问题)。有什么办法可以让这项任务更简单、更容易吗?我对Hadoop一窍不通,请帮忙详细解释一下。非常感谢!

是的,您可以使用sqoop export。首先需要设置jdbc驱动程序,然后就可以开始了。希望你的管理员能帮上忙。

sqoop export --connect jdbc:teradata://server-name:server-port/database-server-name --username uname --password pwd --table Teradata_table --hcatalog-database db_name --hcatalog-table sample_table -m 18

现在,这是一个MVP解决方案,你需要检查这是否适用于所有表,如果你需要实现任何密码混叠或应用任何安全。

编辑/更新:关于@Fred对TDCH的评论。这是一个免费的工具(安装在Hadoop集群中),它可以比sqoop更好地在hive和Teradata之间移动数据。请注意,如果您有复杂的、高容量的表要移动,这可能是一个有效的选择。
谢谢你@Fred提到这一点。

最新更新