我只是想知道存储apache Cassandra的数据对任何其他分布式文件系统的影响。
例如,假设我的Hadoop集群有5个节点,复制因子为3。
类似地,对于cassandra,我有5个集群节点,所有密钥空间的复制因子为3。所有数据都将存储在具有相同装载路径的hdfs位置。
例如-node-0 Cassandra数据目录-"/data/user/Cassandra-0/">
和Cassandra日志目录-"/data/user/cassandra-0/logs/
有了这样的体系结构,我需要对以下几点进行评论-
-
根据数据税文档中的建议,casaandra数据和commitlog目录应该不同,这在这种情况下是不可能的。默认配置下,cassandra commitlog的大小为8192MB。因此,根据我的理解,如果我有一个1TB的磁盘,如果磁盘已满或任何磁盘级别的错误都会停止整个cassandra集群??
-
第二个问题与底层存储机制有关。通过为hdfs指定复制因子3和为cassandra指定复制因子,进行两个级别的数据分发,那么将在9个位置存储相同的数据(sstables(吗?严重的记忆力减退,请对此提出建议??
Cassandra不支持在非本地文件系统(如HDFS等(上开箱即用的数据存储。理论上,你可以破解源代码来支持这一点,但这毫无意义-Cassandra自己处理复制,不需要额外的文件系统层。