小贝子编程

如何减少通过spark流写入的检查点文件的数量

本文关键字：检查点文件何减少 spark apache-spark spark-structured-streaming spark-checkpoint
更新时间 : 2023-09-21
英文 : How to reduce number of checkpoint files writen by spark streaming

如果spark流作业涉及shuffle和有状态处理，那么每个微批很容易生成大量小文件。我们应该在不影响延迟的情况下减少文件数量。

如果使用所有默认配置，一个spark流式微批将生成80k个文件。这将导致hdfs的高qp和延迟。最好更改以下配置以减少检查点文件。

配置spark.sql.streaming.minBatchesToRetain10030spark.sql.streaming.stateStore.minDeltasForSnapshot105spark.sql.shuffle.partitions200取决于微批量大小，50或100

最新更新

使用两个表在mysql数据库中按国家查找用户
如何从appsettings.json获得日期时间?
配置组到springdoc openapi
用连字符替换laravel路由URL模式中的正斜杠
获胜团队(班级)场景
可以解构来自SWR查询的结果吗?
如何添加已配置的GKE节点池访问范围
Tomcat 10.1 尝试加载自定义标记，但找不到类"javax.servlet.jsp.tagext.Tag"
如何根据RFC 3984从RTP包中提取H264视频?
getElementsByTagName递归地在具有iFrames的页面上
我的文本字段返回 null，因此不知何故该值没有从 onChanged ->变量传递
在redis中，HSET是否影响哈希上现有的TTL ?
如何获得h3标签下的特定链接?
c -当我用数组排队时重复
为我的GET API调用防止不需要的参数值，以提高安全性
我如何使用TypeScript泛型函数，可以返回对象或数组?
我正在做一个机器学习NLP项目，遇到了一个问题
更正我的批处理脚本，以便文件夹中的文件可以根据年，月和日分组
运行我的 CI 时没有这样的模块"AWSCore"，在本地很好
APPSCRIPT从Gmail中检索带有电子邮件地址的上次交互日期
Arduino cmake build system without IDE
使用.Split拆分字符串并返回第一个整数值
Docker挂载的卷文件属于nobody:nobody(失去所有者)
气流操作器从URL下载文件并保存到磁盘
我试图在提交表单之前添加一个选中的属性，并使用laravel刀片模板单击无线电粘性
Love2D 错误：main.lua：38：尝试调用方法 'getHeight'(一个 nil 值)
使用稀疏矩阵与jax
对于大一点的孩子(9岁以上的孩子)，我需要什么样的iOS家长门?
Understanding std::vector::push_back(std::move(v[i]))
你能找到解决这个问题的方法吗?

如何减少通过spark流写入的检查点文件的数量

相关内容

最新更新

热门标签：