小贝子编程

如何在数据帧上使用并发API

本文关键字：并发 API 数据帧 scala apache-spark-sql
更新时间 : 2023-08-25
英文 : How to use Concurrency API on data frames?

我需要并行化Scala数据框架来加载各种表。我有一个事实表，大约有1.7 TB的数据。加载大约需要5分钟。我想并发加载我的维度表，这样我就可以减少我的整体scala。我不太熟悉Scala的并发API。

您需要仔细阅读Spark -它的全部要点是并行处理超出单台机器范围的数据。从本质上讲，Spark将通过并行运行的许多任务来并行负载-这完全取决于您如何设置集群-从问题中我猜您只使用on并且您在本地模型中运行它，在这种情况下您至少应该在本地运行它[您拥有的处理器数量]

如果我没有说清楚，你也不应该使用任何其他Scala并发api

最新更新

从具有相似前缀的列中划分元素
为什么我的一些网站内容没有加载?
MySQL SELECT没有找到已知值
新的r，抓取列值时，知道另一个
使用Accord.Video.FFMPEG，我得到了"parameter is not valid exception"。我该如何解决？
c -如何获得exec()的输出?
r语言 - 我如何将我的数据帧从宽格式转换为长格式，在不同的时间记录变量?
如何在boost multi_array容器中存储值?
单独的页面vs更新同一页面上的组件
如何创建唯一索引，这需要一组属性是唯一的?
如何触发按钮与键盘和活动
验证中的问题
在java中用空格替换撇号
将请求发送到多环境公共包中的适当API
r语言 - 当变量由几个部分组成时，将 tibble 转换为长格式
返回填充空值的每个月的最新值
如何在循环内外使用来自user的输入变量
如何通过从网站的前端发出 ajax 请求(在同一域上内置 react )来获取 wordpress 中的当前用户 ID
标记器更改词汇表条目
python请求和concurrent.futures问题
删除新提要中不存在的旧行
如何在颤振中将可变大小的小部件剪辑为固定大小?
限制安排数量
在r的嵌套列表内计算
JavaScript使用自定义布尔值对日期排序
Quarkus K8S操作器-运行测试时NoSuchField异常
从抓取数据中重新格式化字符串以满足关键字参数
PHP setCookie的子域在前端不是相同的子域
如何更改Kubeflow管道循环运行的参数?
是否有一种方法可以有条件地注册类型作为.net依赖注入的回退?

如何在数据帧上使用并发API

相关内容

最新更新

热门标签：