HBase or Cassandra?



在我的lambda体系结构中,我正在讨论是使用HDFS还是Cassandra来存储我的不可变数据。我需要Cassandra来提供在线请求等,所以这是技术堆栈的强制性部分。现在,如果不必要的话,我不想在堆栈中引入新工具(HDFS)。所以我的问题是,如果我不使用HDFS并使用Cassandra来托管我的不可变数据,我会缺少什么。

编辑:

我知道HDFS是一个分布式文件系统,Cassandra是NoSQL数据库。尽管如此,两者都支持数据复制,都支持高吞吐量写入。此外,Cassandra支持低潜在数据检索。所以我说HDFS不会给我带来太大的提升,这是对的吗?

据我所知,您正试图澄清Lambda架构的服务层。如果是这样,则需要将批处理视图和实时视图存储到数据库中。据我所知,您的批处理层中没有Hadoop集群。并且您的批处理视图尚未在HDFS中完成。在这一点上,您的体系结构在HDFS之外。HBase是一个基于Hadoop文件系统构建的分布式列数据库。这是一个开源项目,可以横向扩展。如果您不想要hadoop集群,请省略HBase。Cassandra是分布式NoSQL数据库(面向列),它在Hadoop集群和HDFS之外工作。如果我正确理解您的架构和需求,我认为Cassandra最适合您。

此外,您可以通过此链接快速获取有关Lambda架构的信息;http://artofbigdata.blogspot.com.tr/2016/01/lambda-architecture.html

HDFS支持不同的文件格式进行存储。例如,序列文件、Avro和Parquet等,以便您可以选择适合您的应用程序需要的文件格式。

还要注意,您可以使用类似SQL的查询高效地读取数据。

因此,不同的数据模型可以在HDFS中通过Cassandra来承载数据。

相关内容

  • 没有找到相关文章

最新更新