问题:我有两组多维异构数据。我在下面编造了一个简单的说明性例子。请注意,有些列是离散的(年龄),有些列是二元的(性别),还有一些列甚至是有序的(裤子尺寸)。
Person Age gender height weight pant_size
Control_1 55 M 167.6 155 32,34
Control_2 68 F 154.1 137 28,28
Control_3 53 F 148.9 128 27,28
Control_4 57 M 167.6 165 38,34
Control_5 62 M 147.4 172 36,32
Control_6 44 M 157.6 159 32,32
Control_7 76 F 172.1 114 30,32
Control_8 49 M 161.8 146 34,34
Control_9 53 M 164.4 181 32,36
Person Age gender height weight pant_size
experiment_1 39 F 139.6 112 26,28
experiment_2 52 M 154.1 159 32,32
experiment_3 43 F 148.9 123 27,28
experiment_4 55 M 167.6 188 36,38
experiment_5 61 M 161.4 171 36,32
experiment_6 48 F 149.1 144 28,28
问题是整个实验组是否与整个对照组有显著差异?
或者粗略地说,它们在[age,gender,height,weight,pant_size]的空间中形成了两个不同的簇?
到目前为止,我所尝试的总体思路是将实验组的相应列与对照组的相应列进行比较;然后,该指标将获取列分数的总和(见下文)。选择一个有点武断的阈值来决定两个组是否不同。这种随意性被列的权重所混淆,而列的权重也有些随意性。值得注意的是,这种方法对于我遇到的实际问题表现得很好,但它需要形式化。我想知道这种方法是否类似于任何现有的方法,或者是否其他已建立的方法更广泛接受?
Person Age gender height weight pant_size
experiment_1 39 F 139.6 112 26,28
experiment_2 52 M 154.1 159 32,32
experiment_3 43 F 148.9 123 27,28
experiment_4 55 M 167.6 188 36,38
experiment_5 61 M 161.4 171 36,32
experiment_6 48 F 149.1 144 28,28 metric
column score 2 1 5 1 7 16
如果假设结果为"cluster",请将此视为分类而不是聚类问题。
因为你不需要找到这些簇,但是它们是预定义的类。
"重写"的方法如下:
训练不同的分类器来预测一个点是来自数据a还是数据B。如果你能得到比50%更好的准确率(假设数据平衡),那么这两个群体确实是不同的。如果你所有的分类器都只和随机一样好(而且你没有犯错误),那么这两个集合可能太相似了。