是否有可能在Hadoop上运行Python的scikit-learn算法?



我知道在Hadoop上使用python语言是可能的。

但是,是否可以在Hadoop上使用scikit-learn的机器学习算法?

如果答案是否定的,是否有一些适用于python和Hadoop的机器学习库?

感谢您的帮助。

简短回答:。因为你几乎可以在Hadoop上运行所有内容。

长答案:视情况而定。首先回答这个问题:

  • 您可以将数据集拆分为多个分区吗?

此外,您可能会发现此演示文稿很有用(Hadoop从第73张幻灯片开始)。

留意jpype模块。通过使用jpype你可以运行Mahout Algorithms,你将用Python编写代码。但是,我觉得这不是最好的解决方案。如果你真的想要巨大的可扩展性,而不是直接使用Mahout。我练习,做POC,使用scikit-learn解决玩具问题,但是当我需要做大量的大数据集群等等时,我就会去Mahout。

相关内容

  • 没有找到相关文章

最新更新