小贝子编程

使用spark将一个大csv拆分为多个csv

本文关键字：csv 拆分一个 spark 使用 scala csv apache-spark apache-spark-sql
更新时间 : 2023-09-21
英文 : Split a large csv into multiple csv with spark

我想用spark在hdfs中写一个大数据帧(150 go(。所以我做了：

df.coalesce(10).write.option("header",true).option("delimiter",";").csv("hdfsPath")

我希望得到10个部分的csv，每个部分15 go但我得到了一个包含所有数据的csv文件，我发现合并不起作用。有解决这个问题的办法吗？

coalesce:的Spark文档后报价

如果请求更大数量的分区，它将保持在当前的分区数量。

您需要按照nehaev的建议使用repartition。

最新更新

如何在MySql中返回不同的列而不是标准列?查询
Listener Facebook Login in Supabase Flutter
Javascript添加类到多个元素，除了一个
在windows上使用R导入xkcd字体(适用于xkcd包)
如何在用户输入不正确的值后使python循环程序?
<picture> 元素在媒体查询/属性之间闪烁到 100% 宽度
Django模板-使用字符串从表单中呈现一个字段
didReadRSSI事件在声明后台模式进入后台时停止工作
Twilio SMS (Java)执行失败
如何使用相同的算法创建两个SSH密钥?
c -指针到数组，malloc和越界访问
遍历JavaScript数组不能产生正确的结果
RegEx在SAP 7.5中以字符的第一次出现开始并结束
使用MS Graph Rest APi上传文件到Documentset
忽略正则表达式搜索中的模式错误，不要使搜索崩溃
在一个帐户上有多个Youtube频道.如何将提供的API密钥限制为仅1个通道?
如何根据输入列表中的项数更改URL ?
scipy. integrated .quad给出ValueError:给出无效的可调用对象
将Pandas Datetime转换为Postgres Date
不能在caporal中使用prog模块
使用Powershell打开特定的Outlook配置文件
如何在WrapPanel中获得元素的坐标?
如何检查webpack.config.js中的监视模式?
如何创建动态正则表达式生成器?
ActorReferences作为Akka中其他角色的成员变量
我不知道有什么区别
文字SQL工作：数组值必须以"{"或维度信息开头
Go-使函数与外观相似的结构切片一起工作的惯用方法
在一个弹出窗口中管理多个输入的焦点
r语言 - 进行单向方差分析

使用spark将一个大csv拆分为多个csv

相关内容

最新更新

热门标签：