我已经阅读了文档和教程,我可以看到所有namenode/datanode的节点都需要安装hadoop。
但是,实际请求对hdfs执行文件读/写操作的客户端呢?
客户端是否也需要安装hadoop?或者它可以只通过某种方式与namenodeurl通信来执行hdfs i/o吗?
例如,在python中,我看到了导入pyarrow并通过将namenodeurl作为参数从hdfs读取数据的示例代码。在这种情况下,是否需要安装hadoop?
您需要安装Hadoop客户端库,以便能够向Hadoop服务(如HDFS或YARN(发出RPC请求。
PyArrow、Spark、Flink等都是客户端,运行/编写代码不需要本地Hadoop安装。