有可能在块中反序列化ORC文件吗?



我有一个巨大的ORC对象(>50GB)。我想把它分成块(以流的方式)反序列化。这允许我在S3文件下载失败的情况下从上次偏移量重试。

我理解ORC存储元数据作为页脚。因此,我正在寻找一些解决方案,首先读取页脚,然后进行分块反序列化。

s3支持通过HTTP api查询特定的文件范围。假设您事先知道条带大小,那么可以使用api来获取文件大小。您可以计算后记偏移量,并仅将其作为一个块下载。有了这些元数据,就可以开始拉入文件的其余部分。最好是做几个请求,每个条带一个,并发解码。

最新更新