比较多变量分布



我有一组多变量实例,我需要从这些实例中提取一个代表性集合;例如,如果我有10万个多变量实例,我想提取1000个代表原始分布的实例。我使用拉丁超立方抽样和随机抽样来提取两个代表性集,现在我想检查这两个代表性集与原始集的相关性有多大。

如果我再详细说明;

我有10万个多变量实例(我们称之为A)

我从'A'中得到两个代表性样本(每个集合将有1000个实例;我们称这两个集合为B和C)

我想检查'B'和'C'是否保留了原始'A'的分布。

提前感谢!

这更像是一个统计问题,但这里有一个概要。通常你会使用卡方检验来比较分布。基本步骤如下:

  1. Bin每个数据集。尽量设置箱子,使每个箱子里至少有5个或更多的样本。(对所有数据集使用相同的bin)

  2. 使用大样本"A"来确定每个bin中的期望样本数(称为f_e)。(顺便说一句。请注意,任何特定bin的f_e将是该特定bin中样本数量的1/100,因为样本A包含的数据点是B或C的100倍)。

  3. 要测试其中一个样本(例如B),计算sum: S = 所有bin的sum (f_o - f_e)^2/fe,其中f_o是bin中观察到的频率。

  4. 这个和是一个卡方变量,其自由度小于你正在使用的箱子总数。

  5. <
  6. 计算strong> 1 - chi2cdf(年代,景深)。这是一个和你得到的(S)一样大或更大的和纯粹由于随机变化(也就是说,即使分布相同)而发生的概率。因此,一个小的结果(接近0)意味着分布可能是不同的,一个大的结果(接近1)意味着它们不可能有显著的不同。

可能有一个库函数可以完成上述所有操作。IDK,因为我很久没有使用任何统计库了

相关内容

  • 没有找到相关文章

最新更新