在集群模式下使用Java读取本地Spark中的CSV文件



我试图在UNIX中读取保存在本地文件系统中的CSV文件,而在集群模式下运行时,它无法找到CSV文件。

在本地模式下,它可以同时读取HDFS和file:///文件。但是在集群模式下,它只能读取HDFS文件。

有没有合适的方法来读取而不复制到HDFS?

请记住,执行程序需要能够访问文件,因此您必须从执行程序节点中采取立场。当你提到HDFS时,这意味着执行节点必须能够访问你的HDFS集群。

如果您希望Spark集群访问本地文件,请考虑NFS/SMB等。然而,有些东西最终会复制数据。

我可以更新我的答案,如果你添加更多的细节,你的架构。