小贝子编程

在集群模式下使用Java读取本地Spark中的CSV文件

我试图在UNIX中读取保存在本地文件系统中的CSV文件，而在集群模式下运行时，它无法找到CSV文件。

在本地模式下，它可以同时读取HDFS和file:///文件。但是在集群模式下，它只能读取HDFS文件。

有没有合适的方法来读取而不复制到HDFS?

请记住，执行程序需要能够访问文件，因此您必须从执行程序节点中采取立场。当你提到HDFS时，这意味着执行节点必须能够访问你的HDFS集群。

如果您希望Spark集群访问本地文件，请考虑NFS/SMB等。然而，有些东西最终会复制数据。

我可以更新我的答案，如果你添加更多的细节，你的架构。

最新更新