如何使用Hadoop解决以下用例


Migrating the data from Legacy database [~50 TB] to New Database.
Migrating data from staging database[ 5GB per 1 hr] to New Database.
Before storing into new database we are doing data analytic(validating, removing unwanted data and , storing only valid data)

请提供使用Hadoop生态系统的架构。

我想你可以Cloudera管理器和CDH(hadoop(。

ETL: Sqoop 2SQL:Hive & Impala数据挖掘:星火。

Sqoop可以轻松地将数据从旧数据库加载到hadoop(简单的命令(

Sqoop import --connect [jdbc:oracle:thin:@//ip:port/servicename] --username xxx --password xxx --table xxx --hive-table

之后,您可以使用 HUE(Web 界面编写 SQL、元数据、工作流(来查询您的数据。

Impala是Cloudera的MPP数据库。

它很容易横向扩展。

首先,为了证明概念,您可以从 4 个节点启动集群:

主节点 (*1(: 64G 内存从节点(*3( : 32G内存

将少量数据加载到数据湖中。完成后,您可以横向扩展并将更多节点添加到数据湖中。

相关内容

  • 没有找到相关文章

最新更新