多维数据聚类



问题:我有两组多维异构数据。我在下面编造了一个简单的说明性例子。请注意,有些列是离散的(年龄),有些列是二元的(性别),还有一些列甚至是有序的(裤子尺寸)。

Person         Age  gender   height     weight  pant_size
Control_1      55   M        167.6      155     32,34
Control_2      68   F        154.1      137     28,28
Control_3      53   F        148.9      128     27,28
Control_4      57   M        167.6      165     38,34
Control_5      62   M        147.4      172     36,32
Control_6      44   M        157.6      159     32,32
Control_7      76   F        172.1      114     30,32
Control_8      49   M        161.8      146     34,34
Control_9      53   M        164.4      181     32,36
Person         Age  gender   height     weight  pant_size
experiment_1   39   F        139.6      112     26,28
experiment_2   52   M        154.1      159     32,32
experiment_3   43   F        148.9      123     27,28
experiment_4   55   M        167.6      188     36,38
experiment_5   61   M        161.4      171     36,32
experiment_6   48   F        149.1      144     28,28

问题是整个实验组是否与整个对照组有显著差异?

或者粗略地说,它们在[age,gender,height,weight,pant_size]的空间中形成了两个不同的簇?

到目前为止,我所尝试的总体思路是将实验组的相应列与对照组的相应列进行比较;然后,该指标将获取列分数的总和(见下文)。选择一个有点武断的阈值来决定两个组是否不同。这种随意性被列的权重所混淆,而列的权重也有些随意性。值得注意的是,这种方法对于我遇到的实际问题表现得很好,但它需要形式化。我想知道这种方法是否类似于任何现有的方法,或者是否其他已建立的方法更广泛接受?

Person         Age  gender   height     weight  pant_size
experiment_1   39   F        139.6      112     26,28
experiment_2   52   M        154.1      159     32,32
experiment_3   43   F        148.9      123     27,28
experiment_4   55   M        167.6      188     36,38
experiment_5   61   M        161.4      171     36,32
experiment_6   48   F        149.1      144     28,28        metric
column score   2    1        5          1       7            16

如果假设结果为"cluster",请将此视为分类而不是聚类问题。

因为你不需要找到这些簇,但是它们是预定义的类。

"重写"的方法如下:

训练不同的分类器来预测一个点是来自数据a还是数据B。如果你能得到比50%更好的准确率(假设数据平衡),那么这两个群体确实是不同的。如果你所有的分类器都只和随机一样好(而且你没有犯错误),那么这两个集合可能太相似了。

相关内容

  • 没有找到相关文章

最新更新