datastax, Spark , and MLLIB

>我有两个问题：

Datastax企业附带的Spark似乎并不完全支持Spark的MLLIB。这导致可以使用Datastax Spark运行的算法存在相当大的限制。Datastax是否有计划在不久的将来完全支持MLLIB？如果是，什么时候？
是否可以在Datastax Cassandra旁边的集群中运行Apache Spark（不使用Datastax Spark）并在它们之间进行通信？如果是，这样做的最佳做法是什么？我找不到任何关于此的文档，如果您能指导我（如果有的话），我将不胜感激。

谢谢伊森

我想是的。
让 Spark 工作节点在与 Cassandra （OLTP）节点相同的机器上运行。有一个单独的Spark Master（假设独立模式）。如果需要故障转移，请使用 Zookeeper 运行另一个 Spark Master。有关详细信息，请查看 https://spark.apache.org/docs/latest/spark-standalone.html。这本质上与同时运行 apache spark 和 apache cassandra 相同。火花卡桑德拉连接器 https://github.com/datastax/spark-cassandra-connector 是局部感知的，因此，在同一节点上运行火花工人和卡桑德拉有巨大的好处。您确实失去了从DSE获得的Spark的自动容错能力，并且必须设置所有内容，但是它工作正常。例如，我在生产中使用 apache spark 和 apache cassandra 有一段时间了。一个好处是，当新版本的 Spark 发布时，您不必等待 DSE 赶上。

相关内容