是否可以在开发人员之间共享/访问 hdfs



我是大数据和蜂巢的新手。需要与其他开发人员合作一个火花流应用程序,其中涉及从 Kafka 读取并将其放置在 hive/hdfs 上。其他开发人员使用/指向 hdfs 的相同位置,读取 hive 文件并执行进一步处理。

我的开发环境是Windows系统上的Eclipse。其他开发人员环境是Eclipse在他的机器上。

由于两者都在处理相同的文件,因此是否可以在我们之间共享hdfs路径?

请分享如何在 Spark 开发团队中处理此类场景的详细信息?

建议最佳实践等

多谢希亚姆

您需要设置多节点 Hadoop集群,并将所有开发人员系统 IP 配置为数据节点,以便它们可以共享相同的 HDFS。

Hadoop的主Conf文件:core-site.xml,hdfs-site.xml,mapred-site.xml和yarn-site.xml

完成后,您可以在HDFS上安装Hive和Spark。

请参阅设置链接:https://www.linode.com/docs/databases/hadoop/how-to-install-and-set-up-hadoop-cluster/https://dzone.com/articles/setting-up-multi-node-hadoop-cluster-just-got-easy-2

最新更新