Hadoop 生态系统部署步骤

我正在尝试将Apache Hadoop堆栈中的所有项目设置在一个集群中。建立apache hadoop生态系统框架的顺序是什么？例如：Hadoop，HBase，...如果您使用一组特定的步骤进行测试，您能否知道在部署过程中可能遇到什么样的问题。部署的主要框架(Hadoop，HBase，Pig，Hive，HCatalog，Mahout，Giraph，ZooKeeper，Oozie，avro，sqoop，mrunit，crunch，如果我错过了什么，请添加(

由于并非所有列出的产品都是依赖的，因此有不同的顺序。
简而言之：
1. Hadoop (HDFS， MapReduce(
2. 猪，蜂巢， sqoop， oozie
2. 动物园管理员(HBase 需要(
3. 乙肝酶

我不是100%确定abou Mahout，MRUnit依赖项，但我认为Hadoop只在需要时。
Avro 并不直接依赖于 hadoop - 它是序列化库。

我会

说部署是根据主要要求完成的，并且根据要求，您将选择所需的其他组件。我认为Hadoop设置如下：1. Hadoop 核心(Hadoop Common + HDFS + MapReduce -> 一个大组件(2. Hadoop组件(取决于选择(

例如，你只设置了1(你仍然可以运行MapReduce作业，同时将你的数据复制到HDFS。我希望你明白我的意思。

例如，现在你想使用Hive和Pig进行数据分析工作，为此你可以设置Hive和Pig。

同时，您决定将此Hadoop集群与SQL Server/SQL Azure连接起来，以便将数据从SQL Server/SQL Azure导入HDFS。为此，您可以设置HiveODBC和Sqoop，它们将为您提供将数据导入/导出到HDFS到SQL Server/Azure的功能。HiveODBC和Sqoop为您提供了将本地Excel和Power Pivot直接连接到HDFS并从那里获取Hive表的功能。

如果你想在HDFS之上

设置一个无SQL数据库，你肯定可以选择HBASE，它将位于HDFS之上，你可以在上面运行MapReduce作业。

依此类推，根据您的要求，您可以创建一个列表，然后在您的集群/集群中进行设置。只要你有基本的Hadoop核心(见上文(，就没有硬性规定，其余的可以在任何核心设置之上完成。

我

您可能会发现有趣的两个有趣的开源项目，它们可能会帮助您为您提供指导和想法：

阿帕奇漩涡 - http://whirr.apache.org/
阿帕奇大顶 - http://incubator.apache.org/bigtop/

看看他们做什么/用来部署你提到的项目，然后问自己："你真的需要自己做吗/不同？

相关内容

最新更新

热门标签：