hive分布式查询以连接来自primise-hadoop集群和amazons3-hadoop集群的数据



我在primise hadoop集群(在我的本地网络中)中有一定数量的数据,在Amazon cloud S3 hadoop群集中也有一定数量。在这两个位置,我的数据都位于配置单元表中。

我想从我的本地hadoop集群中激发一个配置单元查询,这个查询应该连接我的本地集群配置单元表中的数据和amazons3hadoop群集中的配置单元表数据。它应该连接来自两个地方的数据并给出结果

到我的本地集群环境,因为我正在从本地配置单元外壳启动查询。

这个问题可以由亚马逊数据管道处理吗。如果是,请给我指路。

谢谢,-Suyodha

没有自动解决方案。

首先,您必须从内部部署集群导出数据,并将其传输到AWS上的S3。然后您可以将这些数据加载到电子病历集群中。

您可以使用数据管道在传输到S3的数据集上执行单元活动。

数据管道中的开箱即用活动有助于S3复制、EMR集群设置和配置单元活动执行。它们不会帮助将您的数据从内部部署转移到AWS。如果你必须自动化,你将需要编写一些脚本等代码。

最新更新