Hadoop , hive , zookeeper etc

我开始学习hadoop。我能够对它有一些了解，但当我读到Hive, Pig和Apache的其他工具时，我感到困惑。所以谁能给我一个关于hadoop和Apache的工具(Hive, Pig, Zookeeper等)的概述，我想知道它们是如何以及在哪里被用来处理大数据的。

Apache Hadoop或Hadoop是一个用于在基本机器集群上存储和处理大规模数据集的开源框架。Hadoop是一个领先的Apache项目，由自由软件社区构建和使用。

Hadoop框架由以下模块组成:

Hadoop Common -包含Hadoop模块所需的库和其他服务
HDFS或Hadoop分布式文件系统 -一种分布式文件系统，将数据存储在功能较弱的机器上，为所有集群提供高带宽。HDFS是一种文件系统，可以通过跨主机集群扩展来存储非常大的数据集。具有特定的设计和性能特点;特别是，它针对吞吐量而不是延迟进行了优化，并且通过复制而不是冗余实现了高可用性。
Hadoop YARN -一个负责任的集群资源管理计算平台，然后将其用于用户应用程序
Hadoop MapReduce -处理大规模数据的编程模型。MapReduce是一种数据处理范例，它从两个阶段(称为map和reduce)中获取数据输入和输出的规范，然后将其应用于任意大的数据集。MapReduce与HDFS紧密集成，尽可能确保MapReduce任务直接运行在保存所需数据的HDFS节点上。

这就是Hadoop框架的主要呈现方式。但除了我上面提到的，Hadoop平台现在也由许多相关的项目组成——Pig、Hive、HBase、Spark、Mahout。

Apache Hive是建立在Hadoop之上的数据仓库基础设施，用于提供数据汇总、查询和分析。

Apache Pig是一个用于创建与Hadoop一起使用的MapReduce程序的高级平台，使用的语言名为Pig Latin

Apache ZooKeeper是Apache软件基金会的一个软件项目，为大型分布式系统提供开源的分布式配置服务、同步服务和命名注册。

Apache Mahout是一个可扩展的机器学习算法框架，主要关注协同过滤、聚类和分类领域。它使用Hadoop平台(但不是必需的)。

相关内容