datastax, Spark , and MLLIB



>我有两个问题:

  1. Datastax企业附带的Spark似乎并不完全支持Spark的MLLIB。这导致可以使用Datastax Spark运行的算法存在相当大的限制。Datastax是否有计划在不久的将来完全支持MLLIB?如果是,什么时候?

  2. 是否可以在Datastax Cassandra旁边的集群中运行Apache Spark(不使用Datastax Spark)并在它们之间进行通信?如果是,这样做的最佳做法是什么?我找不到任何关于此的文档,如果您能指导我(如果有的话),我将不胜感激。

谢谢伊森

  1. 我想是的。
  2. 让 Spark 工作节点在与 Cassandra (OLTP) 节点相同的机器上运行。有一个单独的Spark Master(假设独立模式)。如果需要故障转移,请使用 Zookeeper 运行另一个 Spark Master。有关详细信息,请查看 https://spark.apache.org/docs/latest/spark-standalone.html。这本质上与同时运行 apache spark 和 apache cassandra 相同。火花卡桑德拉连接器 https://github.com/datastax/spark-cassandra-connector 是局部感知的,因此,在同一节点上运行火花工人和卡桑德拉有巨大的好处。您确实失去了从DSE获得的Spark的自动容错能力,并且必须设置所有内容,但是它工作正常。例如,我在生产中使用 apache spark 和 apache cassandra 有一段时间了。一个好处是,当新版本的 Spark 发布时,您不必等待 DSE 赶上。

最新更新