Cassandra文件系统

根据快速实现[在Cassandra SF中的演示]- Cassandra, CFS, Job/Task Tracker和Hive Metastore在单个JVM中运行，这与配置独立的hadoop集群完全不同。

这是一个优势吗?

如果任务跟踪器或JVM中的任何单个进程失败会发生什么?这是否会影响同一JVM中的cassandra实例?

CFS如何获取数据?它是否将sstable存储为子块或副本?子块的压缩在哪里完成?

问候,泰米尔

Brisk在单个JVM中运行所有这些，但是在独立的线程中运行，这些线程不会相互影响。跟踪器在专用节点上运行，但不存在单点故障。可以选择任何节点来运行跟踪器，并且所有状态都被持久化到Cassandra集群。

所有这些都在同一个JVM中的好处是，将数据从Cassandra移动到Hadoop代码中没有复制和序列化开销。

CassandraFS将64MB的HDFS块分解成2MB的块，并将它们作为列存储在Cassandra中，每个块一行。文件本身被映射到inodes列族中的一个块行uuid列表。

相关内容