如何将 Hive 表从 Hadoop 数据湖导入到 AWS RDS



我需要有关将数据从Hadoop datalake(经过Kerberos身份验证(导入AWS的建议。Hive 表中的所有表都应位于 s3 中,然后需要加载到 AWS RDS。我考虑了以下选择:1( AWS 胶水 ?2( 火花连接到蜂巢元存储?3( 从 AWS 连接到黑斑羚?

大约有 50 个表要导入。如何维护架构?导入数据然后在 RDS 中创建单独的架构是否更好?

就个人而言,我会转储所有需要移动的表的列表。

然后,对它们运行SHOW CREATE TABLE,并保存查询。

运行distcp,或者您希望将数据移动到S3/EBS的其他任何

内容

编辑每个创建表命令以指定云数据存储中的 Hive 表位置。我相信您需要将所有这些作为外部表,因为您无法将数据直接放入 Hive 仓库目录并让元存储立即知道它。

在 AWS Hive 连接上运行所有命令。

我有同事使用过马戏团火车

Impala 和 Spark 用于处理。您将需要在这里主要处理 Hive 元存储。

最新更新