小贝子编程

在R中使用Sparklyr读取.CSV文件

本文关键字：读取 CSV 文件 Sparklyr r csv apache-spark sparklyr
更新时间 : 2023-09-07
英文 : Read a .csv file with Sparklyr in R

我在C:UsersUSER_NAMEDocuments中有几个.csv文件，大小超过2 GB。我想使用Apache Spark在R中读取它们的数据。我正在使用Spark 2.0.1的Microsoft R Open 3.3.1。

我坚持读取.csv文件，其中 Sparklyr包中定义的 spark_read_csv(...)。它要求以file://开头的文件路径。我想知道我的案例的适当文件路径，从file://开始，并以.../Documents目录中的文件名结尾。

我也有类似的问题。在我的情况下，在使用spark_read_csv调用它之前，必须将.csv文件放入HDFS文件系统中。

我认为您可能有类似的问题。

如果您的群集也与HDF一起运行，则需要使用：

hdfs dfs -put

最好，Felix

最新更新

无法获取熊猫数据帧中的第一列值
Odoo添加按钮应该重定向到我的模块视图
r语言 - 我如何得到比例在数据表没有组号重复?
无法使用 conda env 导入 OCI 笔记本会话中的模型配置详细信息
c - while循环中VSC的分段错误
无法将url数据获取到模型类中
如何将DataGridTextColumn绑定到WinUI3中绑定的对象中的方法?
错误在cobol程序上打开VB文件来处理XML文件
while循环在python中没有爆发
yii2查询具有多个非和或的数据提供程序
Libgdx:渲染方法
Pycharm 错误：预期类型 [类名] 改为"str"
运行我的代码时出现错误:未知的自定义元素
在Selenium 4中使用Behat和Mink Selenium2驱动程序为Microsoft Edge浏览器运行测试
宽度未知的可变列数
我必须在.env文件中存储哨兵公钥吗?
Mongodb子文档没有自动生成对象id Typegoose/ mongoose
类型中构造函数的参数 0 需要找不到类型为"org.hibernate.SessionFactory"的 Bean
根据r中的日期和小时每隔15分钟聚合数据
如何解决关于Optuna存储的错误?
c语言中OO继承的混叠问题
launchWebAuthFlow窗口在chrome扩展关闭后保持打开
使用非初始结构变量作为参数调用函数不会产生警告
Pytorch - mat1和mat2形状不能相乘(3328x13和9216x4096)
我如何得到一个节点超时的内部id使用符号没有硬编码查找索引?
spring引导应用程序读取另一个jar的应用程序配置值吗?
如何在main.js中导入javascript库以在整个vue应用程序中获得全局可用性?
使段落出现，并使其在点击显示下一个段落时消失
GROUP_CONCAT(DISTINCT xxx)将连接值的顺序颠倒
r语言 - 循环遍历列表的列表

在R中使用Sparklyr读取.CSV文件

相关内容

最新更新

热门标签：