错误术语 e 的含义

我正在读《统计学习导论》这本书。书中说：

更一般地说，假设我们观察到一个定量响应 Y 和一组预测变量 X1、X2、....Xn.

我们假设 Y 和 X 之间存在某种关系（X1， X2， ...Xn），可以用非常一般的形式写成：

Y = f（X） + e

在这里，f 是 X 的一些固定但未知的函数，e 是一个随机误差项，它与 X 无关，均值为零。

我想知道零的意思是什么意思？

我想知道零的意思是什么意思？

这意味着，被视为随机变量的e的期望值为 0。换句话说，如果您计算这些误差的平均值，那么随着样本集增长到无穷大 - 它将收敛到零。

用更实际的术语来说，它只是意味着，你的噪声不会改变你的f（x）函数，但是如果你观察到一些"正"噪声，观察到相同强度的"负"噪声的概率完全相同。请注意，如果您有平均m e，这将意味着

E[f(x) + e] = E[f(x)] + E[e] = E[f(x)] + m

因此，对于每个点"x"，您希望观察到值 f（x） + m，而不仅仅是 f（x）。因此，它将与建模相同

g(x) + e'

哪里

g(x) = f(x) + m

e'现在是零均值随机噪声。因此，整个统计设置对于非零平均噪声仍然有效，但是您的任务（ML正在求解）不是对"f"进行建模，而是对"g"进行建模。

为了说明起见，假设您的错误是正态分布的，因为在介绍性设置中，我们经常做出这样的假设。如果你愿意接受这一点，那么考虑零均值误差的另一种方法是说你的结果变量Y本身是一个随机变量，分布如N（f（X），sigma^2）。换句话说，结果就像从以 f（X）为中心的某个概率分布中随机抽取。请注意，如果观察到的每个 Y 都有不同的 X，那么您会看到 f（X）的值发生变化，因此生成每个观测结果 Y 的正态分布也会发生变化。然而，所有观察结果都由基本规则（f）联系在一起，该规则是关于特征（即您的X数据）如何分配给生成结果的分布。

相关内容

最新更新

热门标签：