Ubuntu大数据模块安装顺序



在Ubuntu上安装Hadoop、Sqoop、Zookeeper、Spark、Java、Apache、Pig、Hive、Flume、Kafka、Mysql等包的顺序是什么?

从这个开始https://www.digitalocean.com/community/tutorials/how-to-install-hadoop-in-stand-alone-mode-on-ubuntu-20-04或https://phoenixnap.com/kb/install-hadoop-ubuntu

忘记PIG, Flume,不再相关。

Zookeeper

然后Spark,然后Kafka。Mysql。但是这一行的顺序不太相关。

你提到的所有东西,除了mysql,都需要Java,所以从Java开始。

对于HDFS或Kafka的高可用性,您需要Zookeeper。Zookeeper没有依赖项,所以这是下一个。(生产集群最少3台服务器) 因为Kafka没有其他依赖项,所以可以下一个设置Kafka。(另外3台服务器实现高可用性)

Hive需要一个metastore,比如Mysql,所以你需要设置Mysql并在上面运行Hive metastore schema查询。(至少2个服务器用于mysql的读写复制)

HDFS可以是next - multiple namenode用于高可用性、datanode和YARN。(7台服务器,2个namenode, 2个资源管理器,3个datanode + nodemanager)

Hive可以选择使用HDFS,所以这将是下一步,假设你想使用它,你可以在HDFS namenode上配置Zookeeper的高可用性。Presto或Spark是比Hive更快的选项,也会使用metastore。(2台HiveServers实现高可用性)

使用YARN, HDFS和Hive,可以设置Spark。

Flume将是下一个,但只有当你真的需要它时。否则,可以将代码配置为直接写入Kafka。

Sqoop是一个退役的Apache项目,可以使用Spark代替。

总的来说,一个包含Kafka和MySQL的最小生产就绪Hadoop集群至少需要17台服务器。如果您添加了负载平衡器和LDAP/Active Directory,那么请添加更多。

只要在Ubuntu上安装CDH (Cloudera)或Ambari就可以安装你提到的所有Hadoop生态系统模块,然后分别安装MySQL和Kafka来使用。