小贝子编程

如何将 Hive 表从 Hadoop 数据湖导入到 AWS RDS

本文关键字：导入 AWS RDS 数据湖 Hadoop Hive 表从 amazon-web-services hadoop apache-spark impala
更新时间 : 2023-09-12
英文 : How to import hive tables from Hadoop datalake to AWS RDS?

我需要有关将数据从Hadoop datalake(经过Kerberos身份验证(导入AWS的建议。Hive 表中的所有表都应位于 s3 中，然后需要加载到 AWS RDS。我考虑了以下选择：1( AWS 胶水？2( 火花连接到蜂巢元存储？3( 从 AWS 连接到黑斑羚？

大约有 50 个表要导入。如何维护架构？导入数据然后在 RDS 中创建单独的架构是否更好？

就个人而言，我会转储所有需要移动的表的列表。

然后，对它们运行SHOW CREATE TABLE，并保存查询。

运行distcp，或者您希望将数据移动到S3/EBS的其他任何

内容

编辑每个创建表命令以指定云数据存储中的 Hive 表位置。我相信您需要将所有这些作为外部表，因为您无法将数据直接放入 Hive 仓库目录并让元存储立即知道它。

在 AWS Hive 连接上运行所有命令。

我有同事使用过马戏团火车

Impala 和 Spark 用于处理。您将需要在这里主要处理 Hive 元存储。

相关内容