考虑偏度和峰度的标准归一化

我有一个相当基本的统计问题。我知道堆栈跨流量可能不是它的理想场所，但是我是一名软件开发人员，我不知道有任何好的统计论坛，而堆栈越过了我过去的很好。

我的问题是以下内容。我需要标准化一些数据。我有两种不同的集合，在我的归一化之后，它们应该共享大致相同的分布。到目前为止，我使用了标准归一化（标准分数：（x -mu）/sigma）。在转换了这样的两个分布的所有值之后，我希望所有变换值的结果分布几乎相同。

到目前为止，这效果很好，但是现在我遇到了一个问题，即我的两个发行版中的一个偏向。标准归一化不能解释这一点，因此在归一化之后，平均值和标准偏差可能相同，但一个偏斜，而另一个分布是对称的。

我现在的问题是：是否有一种已知的做出标准归一化的方法，该标准归一化也考虑了转化的偏斜和峰度？要提到的重要一件事是我的价值观也可能是负面的。

我可以看到这可能不是正确的论坛，所以如果有人可以将我指向可靠的统计论坛，我也会很高兴。

oli

如果您的目标是查看两个数据集是否共享相同的分布，则无需进行标准化。您应该考虑使用Q-Q图。如果数据共享共同的分布，即使使用不同的参数化，则结果将相当接近直线。

在两组中具有相同数量的数据时，生成Q-Q图很容易。对两个组进行排序，然后将它们配对并绘制它们。如果集合是不同的尺寸，则必须插入较小集合的分位数，这更具挑战性。

在您当前的情况下，如果其中一个集合偏斜（基于一个或两个异常值），而另一个是对称的，则它们可能来自不同的分布。

如果您的数据正态分布，则当使用真实方差进行转换时，"标准化"会产生标准的正常，并且当使用样品方差时t分布。但是，由于标准化是线性转换，因此具有形状的保护。如果您的数据不正常，则标准转换不会神奇地使它们成为钟形且对称。

我知道，唯一可靠地产生相同参考分布的转换是转换为分位数。这是一个众所周知的结果，如果随机变量x具有可逆的cdf f _x，则F _x（x）〜U（0,1），即，通过它们自己的CDF产生的分位数标准化为范围（0,1）。要将其作为转换，您必须知道正确的CDF。这就是Q-Q图非常聪明的地方：如果两个数据集具有相同的基础分布，则它们的分位数将彼此排列，无论您是否知道实际分布。

。

底线：如果您想知道两个数据集是否具有相同的分布，请使用Q-Q绘图。如果您需要进行任何（连续）输入分布的已知参考分布的转换，则需要知道所涉及的实际CDF。

我不确定以通用和分布独立的方式存在这种转换（有人可以称呼"标准"）。对于标准归一化，您要做的是线性转换（（（x -mu）/sigma），因此您的分布现在类似于n（0,1）-Gaussian -Gaussian平均值为0，Sigma为1。

，但偏斜计算为偏斜= 3 *（平均值 - 中值）/标准偏差。因此，以0均值为1，stddev为1，剩下的是-3*Median。因此，如果您现在有非零偏斜，则意味着要制作0的非零中位数。

唯一剩下的选项是非线性转换，我认为这将取决于分布。基本上，PJs发表了类似的陈述 - 通过假定与CDF和逆CDF一起使用的分位数转换，这超出了线性转换范围，并且在不处理分布属性的情况下无法引导。

。

也许使用简单的模型进行偏斜分布 - 偏斜的正常 - 可能会为这种转换产生一些简单的模型

相关内容

最新更新

热门标签：