Cassandra(使用Hadoop)与Spark的性能



我们在与Cassandra不同的一组节点上运行Spark/Hadoop。我们有10个Cassandra节点和多个spark内核,但Cassandra并没有在Hadoop上运行。通过spark(在yarn客户端模式下(从Cassandra获取数据的性能不是很好,从HDFS读取大容量数据的速度更快(在Cassandra中为6分钟,在HDFS中为2分钟(。更改Spark Cassandra参数也没有多大帮助。

在Cassandra之上部署Hadoop会解决这个问题并对读取性能产生重大影响吗?

在不查看代码的情况下,以分析/Spark容量进行的批量读取在直接访问文件VS时总是会更快。从数据库读取。数据库提供了其他优势,如模式强制、可用性、分发控制等,但我认为您看到的性能差异是正常的。

最新更新