我们有活泼的压缩生成的ORC文件。我只是想了解ORC文件转储日志,我知道默认情况下ORC的条带大小为64MB。但是,我看到 ORC 文件中的每个条带通常都有大约 5-10MB 的大小。我只想知道该大小是否以压缩格式表示,或者我的默认条带本身小于 64MB?
注意:我在后台使用最新的 EMR 实例,文件位于 S3 中。
条带大小表示缓冲区内存大小,分配给将行存储更改为列存储,然后写入 HDFS。 因此,您总是看到 HDFS 中的条带小于条带的大小(即 64 MB(。