错误术语 e 的含义



我正在读《统计学习导论》这本书。书中说:

更一般地说,假设我们观察到一个定量响应 Y 和一组预测变量 X1、X2、....Xn.

我们假设 Y 和 X 之间存在某种关系(X1, X2, ...Xn),可以用非常一般的形式写成:

Y = f(X) + e

在这里,f 是 X 的一些固定但未知的函数,e 是一个随机误差项,它与 X 无关,均值为零。

我想知道零的意思是什么意思?

我想知道零的意思是什么意思?

这意味着,被视为随机变量的e的期望值为 0。换句话说,如果您计算这些误差的平均值,那么随着样本集增长到无穷大 - 它将收敛到零。

用更实际的术语来说,它只是意味着,你的噪声不会改变你的f(x)函数,但是如果你观察到一些"正"噪声,观察到相同强度的"负"噪声的概率完全相同。请注意,如果您有平均m e,这将意味着

E[f(x) + e] = E[f(x)] + E[e] = E[f(x)] + m

因此,对于每个点"x",您希望观察到值 f(x) + m,而不仅仅是 f(x)。因此,它将与建模相同

g(x) + e'

哪里

g(x) = f(x) + m

e'现在是零均值随机噪声。因此,整个统计设置对于非零平均噪声仍然有效,但是您的任务(ML正在求解)不是对"f"进行建模,而是对"g"进行建模。

为了说明起见,假设您的错误是正态分布的,因为在介绍性设置中,我们经常做出这样的假设。如果你愿意接受这一点,那么考虑零均值误差的另一种方法是说你的结果变量Y本身是一个随机变量,分布如N(f(X),sigma^2)。换句话说,结果就像从以 f(X) 为中心的某个概率分布中随机抽取。请注意,如果观察到的每个 Y 都有不同的 X,那么您会看到 f(X) 的值发生变化,因此生成每个观测结果 Y 的正态分布也会发生变化。 然而,所有观察结果都由基本规则(f)联系在一起,该规则是关于特征(即您的X数据)如何分配给生成结果的分布。

相关内容

最新更新