将Cassandra数据存储在其他分布式文件系统(如MapR和hdfs)上是否可行

我只是想知道存储apache Cassandra的数据对任何其他分布式文件系统的影响。

例如，假设我的Hadoop集群有5个节点，复制因子为3。

类似地，对于cassandra，我有5个集群节点，所有密钥空间的复制因子为3。所有数据都将存储在具有相同装载路径的hdfs位置。

例如-node-0 Cassandra数据目录-"/data/user/Cassandra-0/">

和Cassandra日志目录-"/data/user/cassandra-0/logs/

有了这样的体系结构，我需要对以下几点进行评论-

根据数据税文档中的建议，casaandra数据和commitlog目录应该不同，这在这种情况下是不可能的。默认配置下，cassandra commitlog的大小为8192MB。因此，根据我的理解，如果我有一个1TB的磁盘，如果磁盘已满或任何磁盘级别的错误都会停止整个cassandra集群？？
第二个问题与底层存储机制有关。通过为hdfs指定复制因子3和为cassandra指定复制因子，进行两个级别的数据分发，那么将在9个位置存储相同的数据(sstables(吗？严重的记忆力减退，请对此提出建议？？

Cassandra不支持在非本地文件系统(如HDFS等(上开箱即用的数据存储。理论上，你可以破解源代码来支持这一点，但这毫无意义-Cassandra自己处理复制，不需要额外的文件系统层。

相关内容