Java中回归的机器学习特征排序/评分



Java中是否有任何特征评分方法可用于类值为连续数而非二进制的回归数据集?

ML-Lib特征评分似乎只适用于分类数据集。

这在很大程度上取决于您的回归算法。基于内核的回归算法的好特性对于线性分类器来说可能相当糟糕。(https://en.wikipedia.org/wiki/Feature_selection)你的目标似乎是"筛选方法"。在许多回归设置中效果良好的是Pearson相关性。这在ML-Lib中也可用。

然而,你应该考虑不添加K顶部相关的特征,而是

  1. 避免选择高度相关的特征对。所以你必须建立所有特征对之间的相关矩阵
  2. 选择顶部特征,建立回归模型,测量模型的误差,测量误差与其余特征之间的相关性。这将贪婪地选择最佳功能
  3. 一旦选择了功能,就应该考虑进行灵敏度分析。也就是说,为所有特征建立回归模型,并为删除了一个特征的所有特征集建立回归模型。如果移除没有显著影响,可以将其移除

最新更新