将用Python编写的机器学习算法集成到Hadoop集群中



在创建了为Cassandra数据库提供数据的Hadoop集群之后,我想使用SciKit-Learn库将我用Python编写的一些机器学习算法集成到Hadoop架构中,以便安排何时将这些算法自动运行到Cassandra中存储的数据。

有谁知道如何进行或任何参考书目可以帮助我吗?

我试着搜索信息,但我只发现我可以使用Mahout,但我想应用的算法是我用Python写的。

首先,Cassandra不是Hadoop的一部分,它也不需要Hadoop。

Scikit适用于小型数据集,但要将算法扩展到Hadoop中,您的数据集将是分布式的,因此无法直接加载到Scikit中。

你需要使用PySpark w/Pandas Integration作为起点,Spark MLlib有自己的几个算法,你可以选择将这些代码部署到Hadoop YARN中。