我在primise hadoop集群(在我的本地网络中)中有一定数量的数据,在Amazon cloud S3 hadoop群集中也有一定数量。在这两个位置,我的数据都位于配置单元表中。
我想从我的本地hadoop集群中激发一个配置单元查询,这个查询应该连接我的本地集群配置单元表中的数据和amazons3hadoop群集中的配置单元表数据。它应该连接来自两个地方的数据并给出结果
到我的本地集群环境,因为我正在从本地配置单元外壳启动查询。
这个问题可以由亚马逊数据管道处理吗。如果是,请给我指路。
谢谢,-Suyodha
没有自动解决方案。
首先,您必须从内部部署集群导出数据,并将其传输到AWS上的S3。然后您可以将这些数据加载到电子病历集群中。
您可以使用数据管道在传输到S3的数据集上执行单元活动。
数据管道中的开箱即用活动有助于S3复制、EMR集群设置和配置单元活动执行。它们不会帮助将您的数据从内部部署转移到AWS。如果你必须自动化,你将需要编写一些脚本等代码。