如何使用Datastax spark最好地管理我的所有节点CPU、内存和存储



我现在有一个由4个spark节点和1个solr节点组成的集群,并使用cassandra作为我的数据库。我想在中期内将节点增加到20个,在长期内增加到100个。但Datastax似乎不支持Mesos或Yarn。如何最好地管理所有这些节点CPU、内存和存储?有20或100个节点的Mesos是必要的吗?到目前为止,我还找不到任何使用数据税的例子。我通常没有需要完成的工作,但我正在运行连续的数据流。这就是为什么我甚至考虑删除Datastax,因为在我看来,如果没有YARN或Mesos,我就无法有效管理这么多节点,但也许还有一个我没有想到的更好的解决方案?我也在使用python,所以很明显Yarn是我唯一的选择。

如果您有任何建议或最佳实践示例,请告诉我。

谢谢!

如果你想用支持的Hadoop/Yarn环境运行DSE,你需要使用BYOH,请在这里阅读。在BYOH中,你可以在DSE中运行内部Hadoop平台,也可以用Yarn和其他可用的东西运行Cloudera或HDP平台。

最新更新