Hadoop , hive , zookeeper etc



我开始学习hadoop。我能够对它有一些了解,但当我读到Hive, Pig和Apache的其他工具时,我感到困惑。所以谁能给我一个关于hadoop和Apache的工具(Hive, Pig, Zookeeper等)的概述,我想知道它们是如何以及在哪里被用来处理大数据的。

Apache Hadoop或Hadoop是一个用于在基本机器集群上存储和处理大规模数据集的开源框架。Hadoop是一个领先的Apache项目,由自由软件社区构建和使用。

Hadoop框架由以下模块组成:

  • Hadoop Common -包含Hadoop模块所需的库和其他服务

  • HDFS或Hadoop分布式文件系统 -一种分布式文件系统,将数据存储在功能较弱的机器上,为所有集群提供高带宽。HDFS是一种文件系统,可以通过跨主机集群扩展来存储非常大的数据集。具有特定的设计和性能特点;特别是,它针对吞吐量而不是延迟进行了优化,并且通过复制而不是冗余实现了高可用性。

  • Hadoop YARN -一个负责任的集群资源管理计算平台,然后将其用于用户应用程序

  • Hadoop MapReduce -处理大规模数据的编程模型。MapReduce是一种数据处理范例,它从两个阶段(称为map和reduce)中获取数据输入和输出的规范,然后将其应用于任意大的数据集。MapReduce与HDFS紧密集成,尽可能确保MapReduce任务直接运行在保存所需数据的HDFS节点上。

这就是Hadoop框架的主要呈现方式。但除了我上面提到的,Hadoop平台现在也由许多相关的项目组成——Pig、Hive、HBase、Spark、Mahout。

Apache Hive是建立在Hadoop之上的数据仓库基础设施,用于提供数据汇总、查询和分析。

Apache Pig是一个用于创建与Hadoop一起使用的MapReduce程序的高级平台,使用的语言名为Pig Latin

Apache ZooKeeper是Apache软件基金会的一个软件项目,为大型分布式系统提供开源的分布式配置服务、同步服务和命名注册。

Apache Mahout是一个可扩展的机器学习算法框架,主要关注协同过滤、聚类和分类领域。它使用Hadoop平台(但不是必需的)。

最新更新