用于平面数据结构的 Apache Parquet



Parquet 是从头开始构建的,考虑了复杂的嵌套数据结构,并使用了 Dremel 论文中描述的记录粉碎和汇编算法。

我知道嵌套结构的支持是通用存储格式的必要条件。但是,对于平面数据,记录切碎和组装(以及可能用于定义和重复级别的额外存储(的开销似乎是多余的。

开销可以忽略不计吗?是否有任何可用的替代列式存储格式?

我认为仅拥有结构化文件类型的好处比纯文本的替代方案更好,无论使用该格式是否支持算法。

XML 文件可以具有架构,但过于冗长,并且不包含像 Parquet 这样的列式统计信息。

ORC、RCFile 和 RecordIO 是用于存储的替代列格式。

Apache Arrow 是一种内存中的列式格式

最新更新