机器学习相关性



我有一个数据集,我清理了它,现在在运行机器学习模型之前,我正在研究相关性。

我读到关于人的r相关性:

  • |0.5|到|1.00|=强
  • |0.3|到|0.49|=中间
  • |0.0|到|0.29|=弱

我不明白几件事:

独立列和独立列

  1. 如果我有一个强相关性,这是好事还是坏事
  2. Doe的强相关性(不是完美的1.0(意味着两列基本相同
  3. 如果相关性良好\不好,我应该删除两列中的一列吗

独立列和从属列

  1. 如果我有一个强相关性,这是好事还是坏事
  2. 如果相关性良好\不好,我应该删除独立列吗

如果两列(特性(具有非常高的相关性,您确实可以删除其中一列,这样您将获得几乎相同或更好的结果。

处理数据相关性的另一种方法是";美白";例如pca或zca。像这样,您也可以处理相关性小于100%的功能。

这将使您能够降低维度并消除特征之间的相关性,因此您需要功能较弱的学习算法来获得相同或更好的结果。

相关内容

  • 没有找到相关文章

最新更新