Scikit-learn KNN(K Nearest Neighbors) 使用 Apache Spark 并行化



我一直在使用Python和Python的Scikit-learn机器学习API研究机器学习KNN(K最近邻)算法。

我已经使用python和Scikit-learn简单地使用玩具数据集创建了示例代码,并且我的KNN工作正常。但正如我们所知,Scikit-learn API是为在单台机器上工作而构建的,因此一旦我将我的玩具数据替换为数百万个数据集,它将降低我的输出性能。

我已经搜索了许多选项,帮助和代码示例,这些示例将使用带有Scikit-learn API的spark并行分发我的机器学习处理,但是我没有找到任何合适的解决方案和示例。

你能告诉我如何使用Apache Spark和Scikit-learn API的K最近邻居实现和提高我的性能吗?

提前感谢!!

根据

这里的https://issues.apache.org/jira/browse/SPARK-2336讨论,MLLib(Apache Spark的机器学习库)没有KNN的实现。你可以试试https://github.com/saurfang/spark-knn

相关内容

  • 没有找到相关文章

最新更新