我在蜂巢中有一个表。
当我运行命令show tblproperties myTableName
时,它给出以下结果:
numFiles 12
numRows 1688092
rawDataSize 934923162
totalSize 936611254
这意味着rawDataSize is 934.92 MB and totalSize is 936.61 MB
当我运行命令以计算同一表的HDFS表位置上的数据大小。
[user@server1 ~]$ hdfs dfs -du -h -s /apps/hive/warehouse/test.db/myTableName
893.2 M /apps/hive/warehouse/test.db/myTableName
结果数据大小为 893.2 MB
我看到,在此处,数据量在同一表方面存在很大差异。我试图理解为什么在同一表的数据大小上有差异并寻找详细说明。
表类型 - Managed_table
#存储信息
SerDe Library: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
InputFormat: org.apache.hadoop.mapred.TextInputFormat
OutputFormat: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
Compressed: No
Num Buckets: -1
936611254/1024/1024 = 893.2 M