小贝子编程

有可能在块中反序列化ORC文件吗?

本文关键字：文件 ORC 反序列化有可能 amazon-s3 orc
更新时间 : 2023-09-22
英文 : Is it possible to deserialize ORC files in chunks?

我有一个巨大的ORC对象(>50GB)。我想把它分成块(以流的方式)反序列化。这允许我在S3文件下载失败的情况下从上次偏移量重试。

我理解ORC存储元数据作为页脚。因此，我正在寻找一些解决方案，首先读取页脚，然后进行分块反序列化。

s3支持通过HTTP api查询特定的文件范围。假设您事先知道条带大小，那么可以使用api来获取文件大小。您可以计算后记偏移量，并仅将其作为一个块下载。有了这些元数据，就可以开始拉入文件的其余部分。最好是做几个请求，每个条带一个，并发解码。

最新更新

CMake：无法在项目中编译 C 库依赖项C++
在页面的左侧放置一个元素
我想测试在Scoold中调用Para API的部分
更改 Azure AD B2C 中的"countryList"下拉列表默认值
Nest.js TypeORM连接到本地数据库(在docker容器上)
如何组合来自不同CSS和不同angular值的2:host()
根据Intel编译器，Fortran内部写入突然出现错误
在从只读接口继承属性的子类上包含setter属性
About datetime class python
将稀疏矩阵转换为pandas数据框架
基于同一表中的另一行生成/计算的列
导入Vuetify3 v-data表的DataTableHeader类型的typescript &g
如何使用web3.py和Chainstack websocket获取内存池挂起事务
我如何在Javascript中调用曾祖父的方法?
Ansible Roles and vars/vault.yml file
无法通过rest api下载CSV文件
比较两个VectorDrawables在Kaspresso - Android中失败
如何从组件调用状态到页面?
在场景生成器中，我正在添加css文件，遇到如下问题:css文件没有实现和显示
如何在不使用应用商店的情况下将我的flutter应用程序下载到iPhone
函数返回未来<dynamic>
从给定的字符和长度(wordlist)生成所有可能的组合
我怎样才能得到一个函数来返回python表的每一行?
如何从嵌套列表中选择随机索引
获取事实表中事实表的开始日期和结束日期之间的所有日期
来自类属性的类型提示
JQ检查数组是否包含元素
使用Knex检查现有id
用于Spring MVC的Spring启动驱动器，在另一个端口上没有Spring启动
在 GCP 云构建中，GitLab CI/CD 的环境文件是否有等效项？

有可能在块中反序列化ORC文件吗?

相关内容

最新更新

热门标签：