小贝子编程

使用pyspark foreachPartition，但保留特定分区的变量

本文关键字：分区变量保留 pyspark foreachPartition 使用 apache-spark partition
更新时间 : 2023-09-07
英文 : use pyspark foreachpartition but retain partition specific variables

我有一个要求，每个Spark Worker在迭代之间保留其变量。该变量是一个结构太大而无法包含在每个RDD中。我可以使用foreachPartition，但是没有一个机制可以通过每个分区一次传递一些变量（然后将其传递给）。即使使用相同的ID，对分区的调用之间也没有连续性。重复广播太贵了。有人知道一种解决这个问题的方法吗？

您可以在这些变量的数组中发送，并使用partition_id来访问值以获得连续性。

最新更新

如何从Firebase认证获得Twitter用户名- Javascript
在哪里存储凭证和其他机密的Apache Flink SQL?
包含具有相同外键的相关对象的查询集
为什么getter触发器有时在模板中?
使用ansible访问字典文件列表
奇怪的uint8_t转换与OpenCV
C语言在介子中的覆盖报告
如何根据第二个表的条件从一个表中选择值?
为什么在下一个.js " use client "组件顶部给我这个错误？
正在文本文件中搜索字符串，但得到多个结果
如何在链表中使用复制赋值操作符
CycloneDX v2.1.2 -如何使用CycloneDX v2.1.2为.net框架项目生成依赖关系图
如何对一般嵌套的TypedDict进行类型注释?
Web代码只是不工作-文本不断弹出动画后
如何使用VBA根据电子邮件的主题提取Outlook电子邮件数据?
为什么 H2 不能创建此表？
按下按钮后功能并行或同时计算
Gradle无法获取Unity Mediation、Firebase和Google Play Service的依赖项.&
使用两个表在mysql数据库中按国家查找用户
如何从appsettings.json获得日期时间?
配置组到springdoc openapi
用连字符替换laravel路由URL模式中的正斜杠
获胜团队(班级)场景
可以解构来自SWR查询的结果吗?
如何添加已配置的GKE节点池访问范围
Tomcat 10.1 尝试加载自定义标记，但找不到类"javax.servlet.jsp.tagext.Tag"
如何根据RFC 3984从RTP包中提取H264视频?
getElementsByTagName递归地在具有iFrames的页面上
我的文本字段返回 null，因此不知何故该值没有从 onChanged ->变量传递
在redis中，HSET是否影响哈希上现有的TTL ?

使用pyspark foreachPartition，但保留特定分区的变量

相关内容

最新更新

热门标签：