在R中使用Sparklyr读取.CSV文件



我在C:UsersUSER_NAMEDocuments中有几个.csv文件,大小超过2 GB。我想使用Apache Spark在R中读取它们的数据。我正在使用Spark 2.0.1的Microsoft R Open 3.3.1。

我坚持读取.csv文件,其中 Sparklyr包中定义的 spark_read_csv(...)。它要求以file://开头的文件路径。我想知道我的案例的适当文件路径,从file://开始,并以.../Documents目录中的文件名结尾。

我也有类似的问题。在我的情况下,在使用spark_read_csv调用它之前,必须将.csv文件放入HDFS文件系统中。

我认为您可能有类似的问题。

如果您的群集也与HDF一起运行,则需要使用:

hdfs dfs -put

最好,Felix

最新更新