我在使用机器学习算法时有两个困惑。一开始,我不得不说我只是用它。
-
有A和B两个类别,如果我想从它们的混合物中挑选尽可能多的A,我应该使用哪种算法(不需要考虑样本的数量)。一开始我认为它应该是一个分类算法。例如,我在一个包TMVA中使用boost决策树,但是有人告诉我BDT实际上是一个回归算法。
-
我发现当我有粗糙的数据。如果我在把它扔给BDT之前对它进行分析(做一些组合……),结果会比我把粗数据扔给BDT好。既然粗糙的数据包含了所有的信息,为什么还需要我自己去分析呢?
如果你不清楚,请补充评论。
对于2,您必须对数据执行一些操作并将其馈送以更好地执行,因为它没有内置到analyze
的算法中。它只关注数据和classifies
。你所说的分析问题被称为feature selection
或feature engineering
,它必须手工完成(当然,除非你使用某种学习特征的技术,例如。深度学习)。在机器学习中,我们已经多次看到,操纵/工程特征比原始特征表现得更好。
对于1,我认为BDT既可以用于回归,也可以用于分类。这看起来像是一个分类问题(选择还是不选择)。因此,您应该使用分类算法
您确定ML是解决您问题的方法吗?在这种情况下,一些分类算法将是:逻辑回归,神经网络,支持向量机,决策树等等