假设我有两个变量:A
(作为输入(和C
(作为输出(
所以它是A -> C
还有另一个变量B
和corr(A, B) > corr(A, C)
corr(C, B) > corr(A, C)
用现有模型A -> B -> C
会得到更好的性能吗
换句话说,这个B
有任何信息增益吗?
在给定A的情况下,获得的关于C的信息是:log(1/P(A,C))
。在给定A和B的情况下,获得的关于C的信息是:log(1/P(A,B,C))
。因此,只要P(A,C) > P(A,B,C)
,就可以通过包含B.获得更多信息
现在,情况是否如此取决于您对corr
度量使用的是什么。但如果A/C依赖于B,那么至少会有一些B的值在提供信息增益。通常,我总是在模型中包含因变量,除非依赖性太强,在这种情况下,一些模型可能无法正常工作(例如神经网络(。