卡桑德拉 vs HDFS 压缩比



我在一台机器中使用相同的输入数据对HDFS和Cassandra的存储量进行评估。HDFS和Cassandra都只有1个副本。我的输入数据是二进制字节,总共 31M。事实证明,HDFS的数据比Cassandra少。

  1. HDFS : 16.4 M. (使用压缩。区块策略((

  2. 卡桑德拉:50M.(使用CQL接口,默认设置(例如压缩((

    这怎么可能,因为卡桑德拉使用列式存储?

    有人可以帮助我弄清楚吗?非常感谢。

    我的Cassandra版本是2.1.9。

如果使用 3.+,您将看到更好的 C* 磁盘使用率。 这是 2.1 的东西,需要列名以及每个字段,所以如果你有 10 个字段,情况会更糟。3.x要好得多,因为它不存储冗余数据。

HDFS和C*是解决不同类型问题的两种完全不同的东西。如果您只是在寻找磁盘空间中最高效的使用,那么hdfs可能是您想要的,因为它可以更有效地存储大量二进制数据。如果您正在寻找更快的读/写,C* 可能是更好的选择。C* 添加到数据中,以组织和提高查询效率,并提供有关数据的保证(以实现一致性(。压缩将获得一些回报,但在很多情况下,它会占用比原始数据更多的空间。

最新更新