小贝子编程

r语言 - 在 RStudio 中使用 sparklyr，我可以将本地 csv 文件上传到 Spark 集群吗?

本文关键字：文件 csv Spark RStudio r语言我可以 sparklyr r apache-spark rstudio sparkr
更新时间 : 2023-09-09
英文 : r - using sparklyr in RStudio, can I upload a LOCAL csv file to a spark cluster

我对集群计算很陌生，所以不确定这是否可能。

我成功地在Rstudio（使用sparklyr）中创建了一个spark_context，以连接到我们当地的Spark集群。使用 copy_to我可以将数据帧从 R 上传到 Spark，但我尝试使用 spark_read_csv 将本地存储的 CSV 文件直接上传到 Spark 群集，而无需先将其导入 R 环境（这是一个大的 5GB 文件）。它不起作用（甚至在位置前面加上 file:///），而且似乎只能上传已经存储在集群中的文件。

如何在不先将其加载到 R 的情况下将本地文件直接上传到 spark？

任何提示表示赞赏。

你不能。文件必须能够作为本地副本或放置在分布式文件系统/对象存储上从集群中的每台计算机访问。

您可以使用

spark_read_csv()方法将文件从本地上传到 Spark。请正确传递路径。

注意：不必先将数据加载到 R 环境中。

r语言 - 在 RStudio 中使用 sparklyr，我可以将本地 csv 文件上传到 Spark 集群吗?

相关内容

最新更新

热门标签：