Hive将avro转换为镶木地板后,数据量大幅增加



我想将一天的avro数据(约2 TB)转换为镶木地板。

我运行了一个配置单元查询,数据成功地转换为镶木地板。

但数据大小变为6 TB。

如果数据的大小是原来的三倍,会发生什么?

通常,Parquet比Avro更高效,因为它是一种列格式,磁盘上相邻的相同类型的列。这使得压缩算法在某些情况下更加有效。通常,我们使用Snappy,它足够、易于使用CPU,并且相对于zip或gzip等其他压缩方法,它有几个特性使其适合Hadoop。主要是快速可拆分;每个块保留确定模式所必需的信息。MParquet是一种很棒的格式,在从Avro迁移后,我们对查询性能感到非常满意(我们也可以使用Impapla,它非常快)。

最新更新