小贝子编程

Apache Spark如何处理不适合内存的数据

本文关键字：不适合内存数据处理 Spark 何处理 Apache apache-spark apache-spark-sql apache-spark-2.0
更新时间 : 2023-09-08
英文 : How does Apache Spark process data that does not fit into the memory?

我返回了一个 Spark 程序，用于从 2GB 内存文件中查找记录计数，存储内存为 1GB，并且它运行成功。

但我的问题是，2GB 文件无法放入 1GB 内存，但 Spark 如何处理文件并返回计数。

仅仅因为磁盘中有 2Gb 文件，并不意味着它会在 RAM 中占用相同或更少或更多的内存。另一点是文件在磁盘中的存储方式（行格式或列格式）。假设它以 ORC 格式存储，那么它已经具有有关表的预先计算的详细信息。

我建议您检查有关内存详细信息的 Spark 执行器和任务详细信息，以了解使用多少个阶段/执行程序/任务来完成 DAG。

最新更新

如何在gitlab ci中定义动态分支
如何制作一个记录事件的discord.py bot ?
Laravel对重复数据的集合求和
如何将具有相同类的多个元素更改为数组项列表
我将一个字符串转换为float，如何验证它是f64
如果pandas数据框架的一个单元格包含所有大写字符串的列表，则从该数据框架中删除一行
如何按开始时间和结束时间对日期数组进行分组，并减去最后一个值-第一个值
在页面中间改变滚动方向，然后返回
JavaScript如何for循环不同的元素作为一个变量在相同的函数中应用
Android Jetpack撰写和导航
payfort "response_message"："带有标记化的无效命令
如何检查我的"npx 安全帽编译"是否正常工作
OSError: -6在Micropython中进行简单的API调用时
带有AND操作符的For循环数组
无法从VPC内访问S3桶上托管的静态网站
使用Numpy Array在每个像素时间序列的特定位置插入值
如何在minikube上部署elasticsearch
如何在点击页面导航链接时停止屏幕滚动，React-Bootstrap和Gatsby
无法在本地种类群集中装载本地主机路径
不能将带有多个对象的文件从React上载到.net Core 5
在Python中找到蛋糕的最大块数
Mongodb:如何将$facet输出2乘以2合并
添加https到数组的缺失字符串?
如何使用bigquery在带有通配符的字符串列表中测试字符串
如何处理Vuex/Pinia商店中的关系并保持同步?
如何制作一定大小的列表(k)
django多对一关系
Powershell调用- webrequest追加到文件而不是写入
R difftime()产生不正确的间隔
SQL查询从两个表中减去值

Apache Spark如何处理不适合内存的数据

相关内容

最新更新

热门标签：