将Cassandra数据存储在其他分布式文件系统(如MapR和hdfs)上是否可行



我只是想知道存储apache Cassandra的数据对任何其他分布式文件系统的影响。

例如,假设我的Hadoop集群有5个节点,复制因子为3。

类似地,对于cassandra,我有5个集群节点,所有密钥空间的复制因子为3。所有数据都将存储在具有相同装载路径的hdfs位置。

例如-node-0 Cassandra数据目录-"/data/user/Cassandra-0/">

和Cassandra日志目录-"/data/user/cassandra-0/logs/

有了这样的体系结构,我需要对以下几点进行评论-

  1. 根据数据税文档中的建议,casaandra数据和commitlog目录应该不同,这在这种情况下是不可能的。默认配置下,cassandra commitlog的大小为8192MB。因此,根据我的理解,如果我有一个1TB的磁盘,如果磁盘已满或任何磁盘级别的错误都会停止整个cassandra集群??

  2. 第二个问题与底层存储机制有关。通过为hdfs指定复制因子3和为cassandra指定复制因子,进行两个级别的数据分发,那么将在9个位置存储相同的数据(sstables(吗?严重的记忆力减退,请对此提出建议??

Cassandra不支持在非本地文件系统(如HDFS等(上开箱即用的数据存储。理论上,你可以破解源代码来支持这一点,但这毫无意义-Cassandra自己处理复制,不需要额外的文件系统层。

最新更新