我对集群计算很陌生,所以不确定这是否可能。
我成功地在Rstudio(使用sparklyr)中创建了一个spark_context
,以连接到我们当地的Spark集群。使用 copy_to
我可以将数据帧从 R 上传到 Spark,但我尝试使用 spark_read_csv
将本地存储的 CSV 文件直接上传到 Spark 群集,而无需先将其导入 R 环境(这是一个大的 5GB 文件)。它不起作用(甚至在位置前面加上 file:///),而且似乎只能上传已经存储在集群中的文件。
如何在不先将其加载到 R 的情况下将本地文件直接上传到 spark?
任何提示表示赞赏。
你不能。文件必须能够作为本地副本或放置在分布式文件系统/对象存储上从集群中的每台计算机访问。
spark_read_csv()
方法将文件从本地上传到 Spark。请正确传递路径。
注意:不必先将数据加载到 R 环境中。