小贝子编程

Spark 如何从另一个数据帧中的文件列表创建数据帧

本文关键字：数据帧文件列表创建 Spark 另一个 apache-spark apache-spark-sql
更新时间 : 2023-08-28
英文 : Spark How to create a DataFrame from a list of file in another DataFrame

在Apache Spark中，如果我有一个CSV文件列表的DataFrame，如何从第一个DataFrame中列出的所有文件的内容创建DataFrame？

从您的描述来看，我认为文件的数量应该很少。只需收集驱动程序的文件路径，并使用它们创建数据帧。例如，

  val filePathDF = sc.parallelize(Seq("a.txt", "b.txt", "c.txt")).toDF("path")
  val df = sqlContext.read.text(filePathDF.collect().map(_.getString(0)): _*)
  df.show()

text 是一个 1.6 的 API。如果您使用的是 1.6 之前的 Spark，则可以改用format("text").load(...)。

最新更新

flutter应用程序在内部测试中崩溃(在我的手机上运行良好)
拉拉维尔简单授权 - 有时不起作用 - "Invalid credentials."
名称空间在引入c++ 98标准之前存在吗?
为什么模型文本不显示在html中?
仅在特定行上使用SUMPRODUCT的最佳方法?
Quickblox扑动自定义对象更新不工作
机器人没有权限时的 discord.py 例外
如何以编程方式触发自动完成数据列表
是否有任何C实现中的指针不表示为指针指向的内存地址
Eclipse调试器变量生命周期视图
我正在研究 SUMO，我使用 od2trips 工具从 OD 矩阵生成了一个行程文件，但我无法定义车辆类型
在CSS中设置不同的淡入时间和淡出时间
startActivityForResult在Android Studio中不显示为弃用
我如何使用Typescript泛型来正确地将参数关联到我的函数?
react -leaf -draw /无法以编程方式访问EditControl组件
docker buildkit是否与挂载的docker一起工作.袜子和码头组合?
在Django中保存带有外键的对象时遇到问题
如何比较作为列表元素的字符串的字符?
Facebook 登录 Django Rest Auth 给出"non_field_errors" ： [ "Incorrect value" ]
JFugue:获取音乐字符串时长
如何将RGB图像转换为NIR+RGB图像?
Go中的Azure JWT验证不起作用
加固跨站脚本:DOM - jQuery修复
如何在vue3中自定义输入字段中获得默认道具?
如何在swiftui中使用NavigationView从外部响应函数导航视图?
使用值 _T( " " ) 和 CString 变量
有一种方法来检查所需的角色在表单数据?
结构JSON到一个' attrs '类与额外的字段使用' cattrs ' ?
使用扑动的设备音频管理
从字典中提取最小x值键

Spark 如何从另一个数据帧中的文件列表创建数据帧

相关内容

最新更新

热门标签：