基本上我需要做的是将ctbnctoolkit与apache Spark集成,因此此工具包可以利用Apache Spark的并发和聚类功能。
一般而言,我想知道是否有任何方式 apache spark 开发人员以机器学习库可以在 Spark的并发状态上运行的方式集成任何Java/Scala库管理?
因此,目标是使独立的机器学习库更快,并同时进行。
不,这是不可能的。
因此,您想要的是任何算法在Spark上运行。但是,为了并行化工作,Spark使用RDD
S或Dataset
s。因此,为了并行运行任务,算法必须使用这些类。
您唯一可以尝试的是编写自己使用任何其他库的Spark程序。但是我不确定在您的情况下是否可能。但是,对您来说不够火花ML吗?