考虑偏度和峰度的标准归一化



我有一个相当基本的统计问题。我知道堆栈跨流量可能不是它的理想场所,但是我是一名软件开发人员,我不知道有任何好的统计论坛,而堆栈越过了我过去的很好。

我的问题是以下内容。我需要标准化一些数据。我有两种不同的集合,在我的归一化之后,它们应该共享大致相同的分布。到目前为止,我使用了标准归一化(标准分数:(x -mu)/sigma)。在转换了这样的两个分布的所有值之后,我希望所有变换值的结果分布几乎相同。

到目前为止,这效果很好,但是现在我遇到了一个问题,即我的两个发行版中的一个偏向。标准归一化不能解释这一点,因此在归一化之后,平均值和标准偏差可能相同,但一个偏斜,而另一个分布是对称的。

我现在的问题是:是否有一种已知的做出标准归一化的方法,该标准归一化也考虑了转化的偏斜和峰度?要提到的重要一件事是我的价值观也可能是负面的。

我可以看到这可能不是正确的论坛,所以如果有人可以将我指向可靠的统计论坛,我也会很高兴。

oli

如果您的目标是查看两个数据集是否共享相同的分布,则无需进行标准化。您应该考虑使用Q-Q图。如果数据共享共同的分布,即使使用不同的参数化,则结果将相当接近直线。

在两组中具有相同数量的数据时,生成Q-Q图很容易。对两个组进行排序,然后将它们配对并绘制它们。如果集合是不同的尺寸,则必须插入较小集合的分位数,这更具挑战性。

在您当前的情况下,如果其中一个集合偏斜(基于一个或两个异常值),而另一个是对称的,则它们可能来自不同的分布。

如果您的数据正态分布,则当使用真实方差进行转换时,"标准化"会产生标准的正常,并且当使用样品方差时t分布。但是,由于标准化是线性转换,因此具有形状的保护。如果您的数据不正常,则标准转换不会神奇地使它们成为钟形且对称。

我知道,唯一可靠地产生相同参考分布的转换是转换为分位数。这是一个众所周知的结果,如果随机变量x具有可逆的cdf f x ,则F x (x)〜U(0,1),即,通过它们自己的CDF产生的分位数标准化为范围(0,1)。要将其作为转换,您必须知道正确的CDF。这就是Q-Q图非常聪明的地方:如果两个数据集具有相同的基础分布,则它们的分位数将彼此排列,无论您是否知道实际分布。

底线:如果您想知道两个数据集是否具有相同的分布,请使用Q-Q绘图。如果您需要进行任何(连续)输入分布的已知参考分布的转换,则需要知道所涉及的实际CDF。

我不确定以通用和分布独立的方式存在这种转换(有人可以称呼"标准")。对于标准归一化,您要做的是线性转换(((x -mu)/sigma),因此您的分布现在类似于n(0,1)-Gaussian -Gaussian平均值为0,Sigma为1。

,但偏斜计算为偏斜= 3 *(平均值 - 中值)/标准偏差。因此,以0均值为1,stddev为1,剩下的是-3*Median。因此,如果您现在有非零偏斜,则意味着要制作0的非零中位数。

唯一剩下的选项是非线性转换,我认为这将取决于分布。基本上,PJs发表了类似的陈述 - 通过假定与CDF和逆CDF一起使用的分位数转换,这超出了线性转换范围,并且在不处理分布属性的情况下无法引导。

也许使用简单的模型进行偏斜分布 - 偏斜的正常 - 可能会为这种转换产生一些简单的模型

最新更新