我的任务是使用scikit-learn、python和mapreduce解决情绪分类问题。我需要使用mapreduce来并行化项目,从而创建多个SVM分类器。然后我应该将分类器"平均"在一起,但我不确定这是如何工作的,也不确定这是否可能。分类的结果应该是一个分类器,即经过训练的平均分类器。
我已经使用scikit-learn-SVM线性内核编写了代码,它很有效,但现在我需要将它引入到映射减少、并行化的上下文中,我甚至不知道如何开始。
有什么建议吗?
-
确保所有必需的库(scikit-learn、NumPy、panda)都安装在集群中的每个节点上。
-
您的映射器将处理每一行输入,即您的训练行,并发出一个键,该键基本上表示您将为其训练分类器的折叠。
-
您的reducer将收集每个折叠的行,然后在该折叠的所有行上运行sklearn分类器。
-
然后,您可以对每个折叠的结果进行平均。