我正在研究k-anonymization和LeFevre提出的mondrian算法。在其中,LeFevre说,在他的算法的某一点上,我们必须根据哪个特征具有最大的归一化值范围来选择Dataframe中的一个特征。
例如,如果我的数据集中有特征Age
,其值为:[13, 15, 24, 30]
,我知道范围是13-30
,但是一旦你使它规范化,它不总是[0-1]
吗?
我知道这个问题看起来很奇怪,但我在网上和论文上都找不到任何能证明他的意思的东西。
这取决于标准化技术,但是是的。如果我们使用最小最大值,它将总是在[0,1]
之间。你能做的就是把这个变量分成几个部分,然后规范化你的数据。然而,使用最小-最大归一化,该特征的最小值转换为0
,最大值转换为1
。也许是一个在这种情况下,均值归一化可能会给出不同的结果。