我在C:UsersUSER_NAMEDocuments
中有几个.csv
文件,大小超过2 GB。我想使用Apache Spark在R中读取它们的数据。我正在使用Spark 2.0.1的Microsoft R Open 3.3.1。
我坚持读取.csv
文件,其中 Sparklyr
包中定义的 spark_read_csv(...)
。它要求以file://
开头的文件路径。我想知道我的案例的适当文件路径,从file://
开始,并以.../Documents
目录中的文件名结尾。
我也有类似的问题。在我的情况下,在使用spark_read_csv调用它之前,必须将.csv文件放入HDFS文件系统中。
我认为您可能有类似的问题。
如果您的群集也与HDF一起运行,则需要使用:
hdfs dfs -put
最好,Felix