当文件作为记录从linux机器上传到Hbase表时,我们观察到数据大小减少(文件系统上为10 GB,Hbase表中为6-8 GB(。hbase表上没有使用压缩方法,主压缩也被禁用。找不到原因原因??
这取决于记录在Linux机器上的存储方式。如果它们是JSON,那么每个键都与每个值一起存储,这会大大增加文件大小。HBase以一种更优化的列格式存储数据,该格式将丢弃密钥。
即使您没有使用JSON,也没有启用压缩,HBase仍然会利用优化来减小文件大小。