我一直在使用Python和Python的Scikit-learn机器学习API研究机器学习KNN(K最近邻)算法。
我已经使用python和Scikit-learn简单地使用玩具数据集创建了示例代码,并且我的KNN工作正常。但正如我们所知,Scikit-learn API是为在单台机器上工作而构建的,因此一旦我将我的玩具数据替换为数百万个数据集,它将降低我的输出性能。
我已经搜索了许多选项,帮助和代码示例,这些示例将使用带有Scikit-learn API的spark并行分发我的机器学习处理,但是我没有找到任何合适的解决方案和示例。
你能告诉我如何使用Apache Spark和Scikit-learn API的K最近邻居实现和提高我的性能吗?
提前感谢!!
这里的https://issues.apache.org/jira/browse/SPARK-2336
讨论,MLLib(Apache Spark的机器学习库)没有KNN的实现。你可以试试https://github.com/saurfang/spark-knn
。