Ubuntu大数据模块安装顺序

在Ubuntu上安装Hadoop、Sqoop、Zookeeper、Spark、Java、Apache、Pig、Hive、Flume、Kafka、Mysql等包的顺序是什么?

从这个开始https://www.digitalocean.com/community/tutorials/how-to-install-hadoop-in-stand-alone-mode-on-ubuntu-20-04或https://phoenixnap.com/kb/install-hadoop-ubuntu

忘记PIG, Flume，不再相关。

Zookeeper

然后Spark，然后Kafka。Mysql。但是这一行的顺序不太相关。

你提到的所有东西，除了mysql，都需要Java，所以从Java开始。

对于HDFS或Kafka的高可用性，您需要Zookeeper。Zookeeper没有依赖项，所以这是下一个。(生产集群最少3台服务器) 因为Kafka没有其他依赖项，所以可以下一个设置Kafka。(另外3台服务器实现高可用性)

Hive需要一个metastore，比如Mysql，所以你需要设置Mysql并在上面运行Hive metastore schema查询。(至少2个服务器用于mysql的读写复制)

HDFS可以是next - multiple namenode用于高可用性、datanode和YARN。(7台服务器，2个namenode, 2个资源管理器，3个datanode + nodemanager)

Hive可以选择使用HDFS，所以这将是下一步，假设你想使用它，你可以在HDFS namenode上配置Zookeeper的高可用性。Presto或Spark是比Hive更快的选项，也会使用metastore。(2台HiveServers实现高可用性)

使用YARN, HDFS和Hive，可以设置Spark。

Flume将是下一个，但只有当你真的需要它时。否则，可以将代码配置为直接写入Kafka。

Sqoop是一个退役的Apache项目，可以使用Spark代替。

总的来说，一个包含Kafka和MySQL的最小生产就绪Hadoop集群至少需要17台服务器。如果您添加了负载平衡器和LDAP/Active Directory，那么请添加更多。

只要在Ubuntu上安装CDH (Cloudera)或Ambari就可以安装你提到的所有Hadoop生态系统模块，然后分别安装MySQL和Kafka来使用。

相关内容

最新更新

热门标签：