小贝子编程

将用Python编写的机器学习算法集成到Hadoop集群中

本文关键字：Hadoop 集成算法 Python 机器学习将用 python machine-learning hadoop scikit-learn
更新时间 : 2023-09-22
英文 : Integrate Machine Learning algorithms written in Python into a Hadoop cluster

在创建了为Cassandra数据库提供数据的Hadoop集群之后，我想使用SciKit-Learn库将我用Python编写的一些机器学习算法集成到Hadoop架构中，以便安排何时将这些算法自动运行到Cassandra中存储的数据。

有谁知道如何进行或任何参考书目可以帮助我吗?

我试着搜索信息，但我只发现我可以使用Mahout，但我想应用的算法是我用Python写的。

首先，Cassandra不是Hadoop的一部分，它也不需要Hadoop。

Scikit适用于小型数据集，但要将算法扩展到Hadoop中，您的数据集将是分布式的，因此无法直接加载到Scikit中。

你需要使用PySpark w/Pandas Integration作为起点，Spark MLlib有自己的几个算法，你可以选择将这些代码部署到Hadoop YARN中。

相关内容