我是机器学习领域的新手。我参加了Udacity的"机器学习导论"课程。所以我知道使用sklearn和python运行基本分类器。但他们在课程中教授的所有分类器都是针对单一数据类型进行训练的。
我有一个问题,我想将代码提交分类为"干净"或"有缺陷"。我有一个功能集,它包含字符串数据(比如人名)、分类数据(比如"干净"one_answers"bug")、数字数据(比如提交次数)和时间戳数据(比如交付时间)。如何同时基于这三个特征来训练分类器。假设我计划使用朴素贝叶斯分类器和sklearn。请帮忙!
我正在努力执行这份文件。任何帮助都是值得的。
许多机器学习分类器,如逻辑回归、随机森林、决策树和SVM,在连续和分类特征方面都能很好地工作。我的猜测是你有两条路要走。第一个是数据预处理。例如,将所有字符串/类别数据(人名)转换为整数,或者可以使用集成学习。
例如,集合学习是指使用多数投票将不同的分类器(每个分类器处理一种异构特征)组合在一起,以便它们在分类中达成共识。希望能有所帮助。