这个中间变量有信息增益吗



假设我有两个变量:A(作为输入(和C(作为输出(
所以它是A -> C
还有另一个变量B
corr(A, B) > corr(A, C)
corr(C, B) > corr(A, C)

用现有模型A -> B -> C会得到更好的性能吗
换句话说,这个B有任何信息增益吗?

在给定A的情况下,获得的关于C的信息是:log(1/P(A,C))。在给定A和B的情况下,获得的关于C的信息是:log(1/P(A,B,C))。因此,只要P(A,C) > P(A,B,C),就可以通过包含B.获得更多信息

现在,情况是否如此取决于您对corr度量使用的是什么。但如果A/C依赖于B,那么至少会有一些B的值在提供信息增益。通常,我总是在模型中包含因变量,除非依赖性太强,在这种情况下,一些模型可能无法正常工作(例如神经网络(。

最新更新