r语言 - 在 RStudio 中使用 sparklyr,我可以将本地 csv 文件上传到 Spark 集群吗?



我对集群计算很陌生,所以不确定这是否可能。

我成功地在Rstudio(使用sparklyr)中创建了一个spark_context,以连接到我们当地的Spark集群。使用 copy_to我可以将数据帧从 R 上传到 Spark,但我尝试使用 spark_read_csv 将本地存储的 CSV 文件直接上传到 Spark 群集,而无需先将其导入 R 环境(这是一个大的 5GB 文件)。它不起作用(甚至在位置前面加上 file:///),而且似乎只能上传已经存储在集群中的文件。

如何在不先将其加载到 R 的情况下将本地文件直接上传到 spark?

任何提示表示赞赏。

你不能。文件必须能够作为本地副本或放置在分布式文件系统/对象存储上从集群中的每台计算机访问。

您可以使用

spark_read_csv()方法将文件从本地上传到 Spark。请正确传递路径。

注意:不必先将数据加载到 R 环境中。

最新更新