Hadoop 生态系统部署步骤



我正在尝试将Apache Hadoop堆栈中的所有项目设置在一个集群中。建立apache hadoop生态系统框架的顺序是什么?例如:Hadoop,HBase,...如果您使用一组特定的步骤进行测试,您能否知道在部署过程中可能遇到什么样的问题。部署的主要框架(Hadoop,HBase,Pig,Hive,HCatalog,Mahout,Giraph,ZooKeeper,Oozie,avro,sqoop,mrunit,crunch,如果我错过了什么,请添加(

由于并非所有列出的产品都是依赖的,因此有不同的顺序。
简而言之:
1. Hadoop (HDFS, MapReduce(
2. 猪, 蜂巢, sqoop, oozie
2. 动物园管理员(HBase 需要(
3. 乙肝酶

我不是100%确定abou Mahout,MRUnit依赖项,但我认为Hadoop只在需要时。
Avro 并不直接依赖于 hadoop - 它是序列化库。

我会

说部署是根据主要要求完成的,并且根据要求,您将选择所需的其他组件。我认为Hadoop设置如下:1. Hadoop 核心(Hadoop Common + HDFS + MapReduce -> 一个大组件(2. Hadoop组件(取决于选择(

例如,你只设置了1(你仍然可以运行MapReduce作业,同时将你的数据复制到HDFS。我希望你明白我的意思。

例如,现在你想使用Hive和Pig进行数据分析工作,为此你可以设置Hive和Pig。

同时,您决定将此Hadoop集群与SQL Server/SQL Azure连接起来,以便将数据从SQL Server/SQL Azure导入HDFS。为此,您可以设置HiveODBC和Sqoop,它们将为您提供将数据导入/导出到HDFS到SQL Server/Azure的功能。HiveODBC和Sqoop为您提供了将本地Excel和Power Pivot直接连接到HDFS并从那里获取Hive表的功能。

如果你想在HDFS之上

设置一个无SQL数据库,你肯定可以选择HBASE,它将位于HDFS之上,你可以在上面运行MapReduce作业。

依此类推,根据您的要求,您可以创建一个列表,然后在您的集群/集群中进行设置。只要你有基本的Hadoop核心(见上文(,就没有硬性规定,其余的可以在任何核心设置之上完成。

您可能会发现有趣的两个有趣的开源项目,它们可能会帮助您为您提供指导和想法:

  • 阿帕奇漩涡 - http://whirr.apache.org/
  • 阿帕奇大顶 - http://incubator.apache.org/bigtop/

看看他们做什么/用来部署你提到的项目,然后问自己:"你真的需要自己做吗/不同?

相关内容

  • 没有找到相关文章

最新更新