HDFS数据大小和HIVE数据大小的差异



我在蜂巢中有一个表。

当我运行命令show tblproperties myTableName时,它给出以下结果:

numFiles        12
numRows         1688092
rawDataSize     934923162
totalSize       936611254

这意味着rawDataSize is 934.92 MB and totalSize is 936.61 MB

当我运行命令以计算同一表的HDFS表位置上的数据大小。

[user@server1 ~]$ hdfs dfs -du -h -s /apps/hive/warehouse/test.db/myTableName
893.2 M  /apps/hive/warehouse/test.db/myTableName

结果数据大小为 893.2 MB

我看到,在此处,数据量在同一表方面存在很大差异。我试图理解为什么在同一表的数据大小上有差异并寻找详细说明。

表类型 - Managed_table

#存储信息

SerDe Library:          org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
InputFormat:            org.apache.hadoop.mapred.TextInputFormat
OutputFormat:           org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
Compressed:             No
Num Buckets:            -1

936611254/1024/1024 = 893.2 M