任意Java机器学习与Apache Spark的集成



基本上我需要做的是将ctbnctoolkit与apache Spark集成,因此此工具包可以利用Apache Spark的并发和聚类功能。

一般而言,我想知道是否有任何方式 apache spark 开发人员以机器学习库可以在 Spark的并发状态上运行的方式集成任何Java/Scala库管理

因此,目标是使独立的机器学习库更快,并同时进行。

不,这是不可能的。

因此,您想要的是任何算法在Spark上运行。但是,为了并行化工作,Spark使用RDD S或Dataset s。因此,为了并行运行任务,算法必须使用这些类。

您唯一可以尝试的是编写自己使用任何其他库的Spark程序。但是我不确定在您的情况下是否可能。但是,对您来说不够火花ML吗?

最新更新