小贝子编程

在 PySpark 中加载存储在 npz 存档中的 numpy 数组

本文关键字：数组 numpy npz PySpark 加载存储 python numpy apache-spark pyspark
更新时间 : 2023-08-29
英文 : Loading numpy arrays stored in npz archive in PySpark

我在 s3 中有大量 numpy 数组存储在 npz 存档中。将它们加载到 PySpark RDD/NumPy 数组的数据帧中的最佳方法是什么？我尝试使用 sc.wholeTextFiles API 加载文件。

rdd=sc.wholeTextFiles("s3://[bucket]/[folder_containing_npz_files]")

但是numpy.load需要一个文件句柄。将文件内容作为字符串加载到内存中会占用大量内存。

你不能对内存要求做太多事情，但除此之外BytesIO应该可以正常工作：

from io import BytesIO
def extract(kv):
    k, v = kv
    with BytesIO(v) as r:
        for f, x in np.load(r).items():
            yield "{0}t{1}".format(k, f), x
sc.binaryFiles(inputPath).flatMap(extract)

最新更新

CSS Sticky属性在本演示中不起作用
NodeJs与xmlrpc服务器通信，并对node-xmlrpc库进行base64编码，将下载的url图像编码为base
在管道中使用powershell如何使用在azure devops中触发的管道运行来获取shelvesset编号.<
我希望在表格单元格内的左、右位置的同一行中有不同的文本
Entity Framework ExecuteDelete没有按预期工作
颤振只加载某些riv (.riv)文件
Python问题我如何循环回我的代码?
asyncpg.exceptions.InvalidAuthorizationSpecificationError Py
为什么我的阅读更多按钮不工作?
如何得到拆分字符后的单词
在列表框之间移动项
设置 SKEmitterNode 的 'targetNode' 会导致奇怪的 'zPosition' 行为
我无法在斐波那契数列 python 中加强术语
用Jest测试使用jquery获取数据的异步函数
c#与HTML敏捷包不能得到div类的值
Python 中的 OOP 层次结构
我如何动画下拉菜单的高度使用顺风css
无法从字符串比较失败的字符串中删除"—"
无法获取熊猫数据帧中的第一列值
Odoo添加按钮应该重定向到我的模块视图
r语言 - 我如何得到比例在数据表没有组号重复?
无法使用 conda env 导入 OCI 笔记本会话中的模型配置详细信息
c - while循环中VSC的分段错误
无法将url数据获取到模型类中
如何将DataGridTextColumn绑定到WinUI3中绑定的对象中的方法?
错误在cobol程序上打开VB文件来处理XML文件
while循环在python中没有爆发
yii2查询具有多个非和或的数据提供程序
Libgdx:渲染方法
Pycharm 错误：预期类型 [类名] 改为"str"

在 PySpark 中加载存储在 npz 存档中的 numpy 数组

相关内容

最新更新

热门标签：