我有一个数据集,我清理了它,现在在运行机器学习模型之前,我正在研究相关性。
我读到关于人的r相关性:
- |0.5|到|1.00|=强
- |0.3|到|0.49|=中间
- |0.0|到|0.29|=弱
我不明白几件事:
独立列和独立列
- 如果我有一个强相关性,这是好事还是坏事
- Doe的强相关性(不是完美的1.0(意味着两列基本相同
- 如果相关性良好\不好,我应该删除两列中的一列吗
独立列和从属列
- 如果我有一个强相关性,这是好事还是坏事
- 如果相关性良好\不好,我应该删除独立列吗
如果两列(特性(具有非常高的相关性,您确实可以删除其中一列,这样您将获得几乎相同或更好的结果。
处理数据相关性的另一种方法是";美白";例如pca或zca。像这样,您也可以处理相关性小于100%的功能。
这将使您能够降低维度并消除特征之间的相关性,因此您需要功能较弱的学习算法来获得相同或更好的结果。